1 目的
平均と中央値はどちらもデータの分布の中心を表す指標 (measures of central tendency) ですが、データによって使い分けが必要です。平均はデータの合計値をデータの数で割った値のことであり、よく利用されます。しかしながら、平均は極端に離れた値である外れ値 (outlier) や非対称な分布に大きく影響を受けます。結果としてデータの分布の中心をうまく表すことができない場合があります。一方の中央値はデータを小さい順に並べ、順番として中央にあるデータのことをいます。平均とは異なり、中央値には外れ値の影響を受けづらいという特徴があります。そのため平均よりも中央値の方が優れた指標である場合もあります。
この記事では平均と中央値の定義について説明した後、その違いを理解し、平均と中央値を使い分ける基準について解説します。
2 平均について
2.1 平均の定義と計算
平均はデータの分の中心を表す指標として利用されます。平均 (算術平均 (arithmetic mean)) (\bar x) は以下のように定義されます。
Definition 1 (平均の定義) \bar x = \frac{\sum_{i=1}^{n} x_i}{n}
ここで x_i はデータ中の各値を表し、n はデータの数を表します。例を見てみましょう。例えば以下のように5つデータがあるとしましょう。
x_1 = 2, x_2 = 4, x_3 = 6, x_4 = 8, x_5 = 10.
Definition 1 にある \sum_{i=1}^{n} x_i はシグマとよばれ、以下の式と同じ意味です:
\sum_{i=1}^{5} x_i = x_1 + x_2 + x_3 + x_4 + x_5.
データの数が5なので、 Definition 1 の n が n = 5 になっている点に注意してください。今回は以下の値になります:
\sum_{i=1}^{5} x_i = 2 + 4 + 6 + 8 + 10 = 30.
平均はこのデータの合計をデータの数 n で割った値です。今回は n = 5 なので、平均は以下のようになります:
\frac{\sum_{i=1}^{n} x_i}{n} = \frac{30}{5} = 6.
したがって、この例ではデータが 6 を中心に分布していそうだとわかりました。実際このデータは 6 を中心にして 2 だけ離れて 4 と 6 が、さらに 2 だけ離れて 2 と 8 が均等に分布していますので、確かに 6 が分布の中心であるといえそうですね。
3 中央値について
3.1 中央値の定義
中央値は平均と同じくデータの分布の中心を表す指標ですが、これらの定義は大きく異なります。中央値はデータを小さい方から大きい方に順番に並べたとき、中央に位置するデータの値のことを言います。つまりデータの数で言うと、簡単に言って、中央値より小さいデータと大きいデータが50%ずつ存在することになります。この意味を実際に中央値を計算して確認してみましょう。
3.2 中央値の計算: データの数が奇数の場合
以下のようにデータの数が奇数の場合に中央値を計算してみましょう。
# Sample Dataset:
12, 15, 7, 10, 20, 25, 30
中央値を計算する手順は以下の通りです。
TIPS 1: : 中央値の計算方法
- データの並べ替え: データを小さい方から大きい方へ順に並べ替えます。
- データの数のカウント: データの数が偶数か奇数かを調べます。
- 中央値の計算: 奇数個のデータであれば中央にある値を中央値とし、偶数個であれば、中央にあるデータ2つの平均を計算する。
実際に上記の手順で中央値を求めてみましょう。
まずデータを小さい方から大きい方へと並べ替えると、7, 10, 12, 15, 20, 25, 30となります。次にデータの数をカウントすると、全部で7個あるとわかります。今回は奇数個データが存在するので、中央にある値を中央値とします。今回は15を中心にデータが3こずつ分布していますので、中央値は15であるとわかります。
3.3 中央値の計算: データの数が偶数の場合
データの数が奇数であれば真ん中のデータが存在します。例えばデータが5個あるなら、3番目のデータが真ん中に位置します。3番目のデータを挟んで1, 2番目のデータ、そして4, 5番目のデータというように3番目のデータを挟んで2個ずつデータが存在します。
ところが、データの数が偶数の場合はうまくいきません。例えばデータが4個ある場合は1, 2番目のデータ、そして3, 4番目のデータというように、データを均等に分けることは可能です。しかしながらデータの数が奇数の場合とは異なり、真ん中にはデータが存在しません。あえて言うなら”2.5”番目のデータを中心にして、データを均等に分けることができますが、2.5番目のデータは存在していませんね?
ではどうすればよいかというと、2番目と3番目の間に新しく値を作り、これを中央値としてデータを半分ずつに分けることにします。具体的にはデータが4個ある場合は、2番目のデータと3番目のデータの平均を計算し、これを中央値にします。実際この値を境に、データが50%ずつに分けられるので、中央値として適切な考え方といえるでしょう。
ではデータの数が偶数の場合について、実際に中央値を求めてみましょう。
# Sample Dataset:
12, 15, 7, 10, 17, 20, 25, 30
Section 3.2 で使ったデータに17を加え、全部で8個のデータにしました。中央値を求める手順は基本的にはデータの数が奇数の場合と同様です。データを大きさ順に並び替え、データの数を確認します。今回はデータが8個あるので、偶数個のデータとなります。
Tip 1 に従い、まずデータを小さい方から順に並び変えると、7, 10, 12, 15, 17, 20, 25, 30となります。次にデータの数をカウントすると8個ありますね。偶数個データがあるので中央の2つのデータを選択し、その平均を計算します。今回は15と17を中心に3個ずつデータが存在しているので、15と17の平均を計算します。(15 + 17)/2 = 16 ですので、中央値は16であるとわかります。
なお通常は手計算で中央値を求める必要はなく、Python言語など適切なプログラミング言語などを利用して簡単に中央値を求めることができます。
4 平均と中央値の違い
平均と中央値を比較すると、Table 1 のような違いがあります。
基準 | 平均 | 中央値 |
---|---|---|
外れ値による影響 | 大きい | 小さい |
非対称な分布による影響 | 大きい | 小さい |
数学的な扱いやすさ | 高い | 平均ほど高くはない |
外れ値 (outlier) とは「データセット中の値のうち、他の値とは大きく離れた値」のことを言います。平均は外れ値の影響を受けやすいことを、例を通して確認してみましょう。
例えば以下のデータがあるとします。
1, 2, 3, 4, 5
このデータの平均と中央値を計算すると、ともに3となります。外れ値を含んだデータではないので、平均と中央値は同じ値を示しています。ではこのデータに外れ値を加えてみましょう。他の値とは離れた値として15を追加します。
1, 2, 3, 4, 5, 15
このデータに対して平均と中央値を計算してみてください。平均は先ほどの3から5に更新されます。この5はデータの分布の中心として適切といえるのでしょうか?答えは”No”です。平均値である5よりも小さい値は1, 2, 3, 4の4個ありますが、5よりも大きい値は1個しかありません。大部分のデータは平均より小さいことになってしまいますので、これではデータを代表するとは言えないでしょう。一方の中央値は3.5ですので、平均値と比べると外れ値である15にそれほど引っ張られておらず、中央値の外れ値に対して影響されにくい性質が確認できたといえるでしょう。
この記事では解説しませんが、平均は Figure 1 (b) のような非対称な分布による影響も受けやすいです。一方で平均値は中央値よりも数学的な定義や計算がシンプルです (See Section 2 and Section 3)。
5 平均と中央値の違いと使い分け
ではこれまで学習したことを踏まえ、平均と中央値をいつ使い分ければよいか、まとめておきましょう。
まずはヒストグラム (histogram) を描いてデータの分布を確認します。
データの分布が非対称の場合、または外れ値が見られる場合:
データの分布の中心を調べたい場合は中央値を使うとよいでしょう。また外れ値が見られる場合も中央値を使います。外れ値を見つける際は箱ひげ図の利用が効果的です。
データの分布が対称であり、外れ値も見られない場合:
平均値と中央値の値にほとんど差はありませんので、数学的にシンプルな平均値を使うとよいでしょう。
6 Keywords
- 平均 (mean)
- 中央値 (median)
- 対称な分布 (symmetric deistribution)
- 非対称な分布 (asymmetric/skewed distribution)
7 Summary Questions
データがどのような値を中心に分布しているかを調べたいとします。この時、ヒストグラムを作成するとデータの分布が対称からかなりずれた形を示していました。
- 平均か中央値を使うとすると、どちらを採用しますか?またその理由を答えましょう。
8 まとめ
この記事では平均と中央値の定義や違いを確認し、それぞれの使い分けについて解説しました。データの分布が非対称であったり外れ値が見られる場合、データの分布の中心を表す指標としては中央値が良いでしょう。一方でデータの分布が対称に近い場合は、計算が簡単な平均を使うと良いでしょう。平均や中央値は通常コンピュータプログラムを使って計算しますので、こういったツールを使いこなす必要がある点も重要です。