1 目的

箱ひげ図は「様々な情報を一つのグラフで表す」ことができる、優れた手段です。この記事では箱ひげ図について説明した後、箱ひげ図の各パーツが表すこと、そして箱ひげ図の見方、読み取り方について解説します。

2 箱ひげ図とは

箱ひげ図では数値データ (numerical data) の分布の様子を表すことができます。具体的には主に以下の情報を知ることができます:

  1. 最小値 (minimum value): データのうち最も小さい値
  2. 第一四分位数 (first quartile): データの25%がこの値よりも小さくなる数値
  3. 中央値 (median / second quartile): データを50%ずつに区切る数値
  4. 第三四分位数 (third quartile): データの75%がこの値よりも小さくなる数値
  5. 最大値 (maximum value): データのうち最も大きい値
  6. 四分位範囲 (IQR: Interquartile Range): 中央値を真ん中として、データの50%が含まれる範囲
  7. 外れ値 (outlier): データ中の他の値から大きく離れた値

3 箱ひげ図の見方

箱ひげ図の例を見て、「箱ひげ図のどこから、どの情報が読み取れるか」を確認してみましょう。

Figure 1: 箱ひげ図の例と各部の解説

3.1 分布の中心

Figure 1 における灰色の部分は「箱」と呼ばれます。この箱の中にある横線は中央値を表します。ここから「分布の中心」が読み取れます。

3.2 データの散らばり

箱の両端はそれぞれ第一四分位数と第三四分位数を表します。中央値は第二四分位数に対応します。「四分位数」によりデータは25%ずつ4つに区切られます。例えば全部でデータが100個あるとすると、第一四分位数より下には25個のデータが存在します。同様に第一四分位数と中央値の間には25個のデータが存在します。

箱の幅はIQRと呼ばれます。第一四分位数と第三四分位数の間なので、データの50%がIQRに含まれます。結果としてIQR、つまり箱の幅から「データの散らばり」を読み取ることができます。散らばりの大きなデータではIQRが大きくなります。

3.3 データの上限、下限と外れ値

「ひげ (whisker)」と呼ばれる部分の両端は最大値最小値を表します。これらの値から「データがどのあたりまで分布しているか」を読み取れます。ただし白丸で表された「外れ値」が存在する場合は、全データの最大値、最小値を表しているわけではありません。外れ値は白丸で表され、その存在を箱ひげ図から読み取ることができます

なお日本ではこの図のことを「箱ひげ図」と呼ぶことが多いですが、英語ではよく「box plot」といわれ、「ひげ」の意味が用語中に含まれていません (ただし”box-whisker plot” と呼ばれることもあり、この場合は「ひげ (whisker)」の意味が含まれます)。

3.4 分布の形状

また中央値が「箱」の両端のどちらかに偏っている場合、データの分布の形が歪んでいることが示唆されます。Figure 1 では若干、第三四分位数よりに中央値が存在していますので、第一四分位数側に歪んだデータであると読み取ることができます。

このように箱ひげ図からはたくさんの情報を読み取ることができます。特に複数のデータに対して箱ひげ図を作成して並べると、各データの特徴が見えやすくなり非常に便利です。個人的には複数のデータに対してこそ箱ひげ図の真価が発揮されるように思います。

4 ヒストグラムと箱ひげ図の関係

箱ひげ図はデータの分布の形状を表していますが、同様にヒストグラムもデータの分布を表しています。つまりヒストグラムと箱ひげ図は大きく関係しています。

このセクションでは、ヒストグラムの形状と箱ひげ図の対応について解説します。箱ひげ図を見たときに、対応するヒストグラムのおおよその形状を想像できるようになることが重要です。

4.1 Left-skewed Data

Figure 2 では、まず生成したデータの分布をヒストグラムで表しています (1行目)。同じデータを使って、2行目の箱ひげ図を作成しました。

Figure 2 (a) は左に伸びたデータの分布 (left-skewed data)をしています。このような分布は非対称な分布の1つであり、箱ひげ図が示す中央値よりも、平均値が左にずれています (Note 1) 。また外れ値も左側に多く分布し、“ひげ”の部分も左に伸びていることがわかります。

つまり、箱ひげ図に要約されたデータを見たとき、“左に伸びた分布だな”、と想像することができます。

Note 1: 平均値と中央値の違い

平均値と中央値はどちらも分布の中央を表す指標ですが、性質が異なります。詳しくは、以下の記事をご覧ください。

4.2 Symmetric Data

Figure 2 (b)では、分布がほぼ左右対称です。このようなデータでは、平均値と中央値がほぼ一致しています。つまり、箱ひげ図を見たときに、“ほぼ対称な分布のデータである”ことが想像できます。

さらに Figure 2 (a) と比較すると、Figure 2 (b) では”ひげ”の部分が長くなっています。このことから、Figure 2 (a) のデータよりも、 Figure 2 (b) のデータの方がばらつきが大きいことが想像できます。実際ヒストグラムを見ると、Figure 2 ではデータが中央値付近に集まっているように見えます。

4.3 Right-skewed Data

Figure 2 (a) とちょうど逆になりますが、Figure 2 (b) ではデータが右側に伸びた分布であることがわかります。平均値が中央値よりも右側に現れており、また”ひげ”も右側に伸びています。

このようなデータはright-skewed data (右側に伸びたデータ) と呼ばれます。

以上のように、箱ひげ図はヒストグラムと大きく関係しており、箱ひげ図からデータの分布の形状を読み取ることが、箱ひげ図の重要な使い方です。

Figure 2: ヒストグラムの形状と箱ひげ図の比較
1行目のヒストグラムを示すデータを2行目の箱ひげ図で表している。赤色の三角形: 平均値, 箱内の青色の縦線: 中央値, オレンジ色の丸: 外れ値

4.4 ヒストグラムでも分布の形状が表せるのに、箱ひげ図は必要なのか?

ここまで学習した通り、ヒストグラムと箱ひげ図はどちらもデータの分布を表すことができ、お互いに関係したグラフです。ではヒストグラムがあればよいかというと、箱ひげ図にはいくつかアドバンテージがあります:

  1. 統計量の表示: 箱ひげ図は中央値、四分位数、IQR、平均値、外れ値を一度に表示でき、データの分布の中心や散らばりの程度を数値化したうえ、分布の形も簡潔に把握することができます。
  2. 外れ値の識別: 箱ひげ図では外れ値を検出することができます。
  3. 異なるグループ間の比較: 複数の箱ひげ図を並べることで、異なるグループの分布を簡単に比較できます。
  4. ビンの調整: ヒストグラムはビンの幅や数に依存しますが、箱ひげ図はそれに左右されず、調整の必要がありません。

特に複数のデータの分布を比較したい場合は、箱ひげ図は便利です。箱ひげ図は様々なデータを一つのグラフで表すことができる強力な視覚化の手法ですので、ぜひ使いこなしていきましょう。

5 Keywords

  1. 最小値 (minimum value)
  2. 第一四分位数 (first quartile)
  3. 中央値 (median / second quartile)
  4. 第三四分位数 (third quartile)
  5. 最大値 (maximum value)
  6. 四分位範囲 (IQR: Interquartile Range)範囲
  7. 外れ値 (outlier)

6 Summary Questions

  1. 箱ひげ図の主な構成要素は何ですか?また各要素は何を表していますか?
  2. 箱ひげ図の「箱」の幅からは何がわかりますか?
  3. 箱ひげ図の白丸は何を表しますか?

7 まとめ

この記事では箱ひげ図から様々な情報が読み取れることを解説しました。分布の中心やばらつきだけではなく、分布の形状や外れ値も見つけることができます。複数のデータに対して箱ひげ図を作成することで、多くのデータを簡単に比較できますので、ぜひ試してみましょう。