1 目的
箱ひげ図は「様々な情報を一つのグラフで表す」ことができる、優れた手段です。この記事では箱ひげ図について説明した後、箱ひげ図の各パーツが表すこと、そして箱ひげ図の見方、読み取り方について解説します。
2 箱ひげ図とは
箱ひげ図では数値データ (numerical data) の分布の様子を表すことができます。具体的には主に以下の情報を知ることができます:
- 最小値 (minimum value): データのうち最も小さい値
- 第一四分位数 (first quartile): データの25%がこの値よりも小さくなる数値
- 中央値 (median / second quartile): データを50%ずつに区切る数値
- 第三四分位数 (third quartile): データの75%がこの値よりも小さくなる数値
- 最大値 (maximum value): データのうち最も大きい値
- 四分位範囲 (IQR: Interquartile Range): 中央値を真ん中として、データの50%が含まれる範囲
- 外れ値 (outlier): データ中の他の値から大きく離れた値
3 箱ひげ図の見方
箱ひげ図の例を見て、「箱ひげ図のどこから、どの情報が読み取れるか」を確認してみましょう。

3.1 分布の中心
Figure 1 における灰色の部分は「箱」と呼ばれます。この箱の中にある横線は中央値を表します。ここから「分布の中心」が読み取れます。
3.2 データの散らばり
箱の両端はそれぞれ第一四分位数と第三四分位数を表します。中央値は第二四分位数に対応します。「四分位数」によりデータは25%ずつ4つに区切られます。例えば全部でデータが100個あるとすると、第一四分位数より下には25個のデータが存在します。同様に第一四分位数と中央値の間には25個のデータが存在します。
箱の幅はIQRと呼ばれます。第一四分位数と第三四分位数の間なので、データの50%がIQRに含まれます。結果としてIQR、つまり箱の幅から「データの散らばり」を読み取ることができます。散らばりの大きなデータではIQRが大きくなります。
3.3 データの上限、下限と外れ値
「ひげ (whisker)」と呼ばれる部分の両端は最大値と最小値を表します。これらの値から「データがどのあたりまで分布しているか」を読み取れます。ただし白丸で表された「外れ値」が存在する場合は、全データの最大値、最小値を表しているわけではありません。外れ値は白丸で表され、その存在を箱ひげ図から読み取ることができます。
なお日本ではこの図のことを「箱ひげ図」と呼ぶことが多いですが、英語ではよく「box plot」といわれ、「ひげ」の意味が用語中に含まれていません (ただし”box-whisker plot” と呼ばれることもあり、この場合は「ひげ (whisker)」の意味が含まれます)。
3.4 分布の形状
また中央値が「箱」の両端のどちらかに偏っている場合、データの分布の形が歪んでいることが示唆されます。Figure 1 では若干、第三四分位数よりに中央値が存在していますので、第一四分位数側に歪んだデータであると読み取ることができます。
このように箱ひげ図からはたくさんの情報を読み取ることができます。特に複数のデータに対して箱ひげ図を作成して並べると、各データの特徴が見えやすくなり非常に便利です。個人的には複数のデータに対してこそ箱ひげ図の真価が発揮されるように思います。
4 Keywords
- 最小値 (minimum value)
- 第一四分位数 (first quartile)
- 中央値 (median / second quartile)
- 第三四分位数 (third quartile)
- 最大値 (maximum value)
- 四分位範囲 (IQR: Interquartile Range)範囲
- 外れ値 (outlier)
5 Summary Questions
- 箱ひげ図の主な構成要素は何ですか?また各要素は何を表していますか?
- 箱ひげ図の「箱」の幅からは何がわかりますか?
- 箱ひげ図の白丸は何を表しますか?
6 まとめ
この記事では箱ひげ図から様々な情報が読み取れることを解説しました。分布の中心やばらつきだけではなく、分布の形状や外れ値も見つけることができます。複数のデータに対して箱ひげ図を作成することで、多くのデータを簡単に比較できますので、ぜひ試してみましょう。