1 目的

平均と中央値はどちらもデータの分布の中心を表す指標 (measures of central tendency) ですが、データによって使い分けが必要です。平均はデータの合計値をデータの数で割った値のことであり、よく利用されます。しかしながら、平均は極端に離れた値である外れ値 (outlier) や非対称な分布に大きく影響を受けます。結果としてデータの分布の中心をうまく表すことができない場合があります。一方の中央値はデータを小さい順に並べ、順番として中央にあるデータのことを言います。平均とは異なり、中央値には外れ値の影響を受けづらいという特徴があります。そのため平均よりも中央値の方が優れた指標である場合もあります。

この記事では平均と中央値の定義について説明した後、その違いを理解し、平均と中央値を使い分ける基準について解説します。

2 平均について

2.1 平均の定義と計算

平均はデータの分の中心を表す指標として利用されます。平均 (算術平均 (arithmetic mean)) (\bar x) は以下のように定義されます。

Definition 1 (平均の定義) \bar x = \frac{\sum_{i=1}^{n} x_i}{n}

ここで x_i はデータ中の各値を表し、n はデータの数を表します。例を見てみましょう。例えば以下のように5つデータがあるとしましょう。

x_1 = 2, x_2 = 4, x_3 = 6, x_4 = 8, x_5 = 10.

Definition 1 にある \sum_{i=1}^{n} x_i はシグマとよばれ、以下の式と同じ意味です:

\sum_{i=1}^{5} x_i = x_1 + x_2 + x_3 + x_4 + x_5.

データの数が5なので、 Definition 1nn = 5 になっている点に注意してください。今回は以下の値になります:

\sum_{i=1}^{5} x_i = 2 + 4 + 6 + 8 + 10 = 30.

平均はこのデータの合計をデータの数 n で割った値です。今回は n = 5 なので、平均は以下のようになります:

\frac{\sum_{i=1}^{n} x_i}{n} = \frac{30}{5} = 6.

したがって、この例ではデータが 6 を中心に分布していそうだとわかりました。実際このデータは 6 を中心にして 2 だけ離れて 46 が、さらに 2 だけ離れて 28 が均等に分布していますので、確かに 6 が分布の中心であるといえそうですね。

3 中央値について

3.1 中央値の定義

中央値は平均と同じくデータの分布の中心を表す指標ですが、これらの定義は大きく異なります。中央値はデータを小さい方から大きい方に順番に並べたとき、中央に位置するデータの値のことを言います。つまりデータの数で言うと、簡単に言って、中央値より小さいデータと大きいデータが50%ずつ存在することになります。この意味を実際に中央値を計算して確認してみましょう。

3.2 中央値の計算: データの数が奇数の場合

以下のようにデータの数が奇数の場合に中央値を計算してみましょう。

# Sample Dataset:
12, 15, 7, 10, 20, 25, 30

中央値を計算する手順は以下の通りです。

Tip 1: TIPS: 中央値の計算方法

  1. データの並べ替え: データを小さい方から大きい方へ順に並べ替えます。
  2. データの数のカウント: データの数が偶数か奇数かを調べます。
  3. 中央値の計算: 奇数個のデータであれば中央にある値を中央値とし、偶数個であれば、中央にあるデータ2つの平均を計算する。

実際に上記の手順で中央値を求めてみましょう。

まずデータを小さい方から大きい方へと並べ替えると、7, 10, 12, 15, 20, 25, 30となります。次にデータの数をカウントすると、全部で7個あるとわかります。今回は奇数個データが存在するので、中央にある値を中央値とします。今回は15を中心にデータが3こずつ分布していますので、中央値は15であるとわかります。

3.3 中央値の計算: データの数が偶数の場合

データの数が奇数であれば真ん中のデータが存在します。例えばデータが5個あるなら、3番目のデータが真ん中に位置します。3番目のデータを挟んで1, 2番目のデータ、そして4, 5番目のデータというように3番目のデータを挟んで2個ずつデータが存在します。

ところが、データの数が偶数の場合はうまくいきません。例えばデータが4個ある場合は1, 2番目のデータ、そして3, 4番目のデータというように、データを均等に分けることは可能です。しかしながらデータの数が奇数の場合とは異なり、真ん中にはデータが存在しません。あえて言うなら”2.5”番目のデータを中心にして、データを均等に分けることができますが、2.5番目のデータは存在していませんね?

ではどうすればよいかというと、2番目と3番目の間に新しく値を作り、これを中央値としてデータを半分ずつに分けることにします。具体的にはデータが4個ある場合は、2番目のデータと3番目のデータの平均を計算し、これを中央値にします。実際この値を境に、データが50%ずつに分けられるので、中央値として適切な考え方といえるでしょう。

ではデータの数が偶数の場合について、実際に中央値を求めてみましょう。

# Sample Dataset:
12, 15, 7, 10, 17, 20, 25, 30

Section 3.2 で使ったデータに17を加え、全部で8個のデータにしました。中央値を求める手順は基本的にはデータの数が奇数の場合と同様です。データを大きさ順に並び替え、データの数を確認します。今回はデータが8個あるので、偶数個のデータとなります。

Tip 1 に従い、まずデータを小さい方から順に並び変えると、7, 10, 12, 15, 17, 20, 25, 30となります。次にデータの数をカウントすると8個ありますね。偶数個データがあるので中央の2つのデータを選択し、その平均を計算します。今回は15と17を中心に3個ずつデータが存在しているので、15と17の平均を計算します。(15 + 17)/2 = 16 ですので、中央値は16であるとわかります。

なお通常は手計算で中央値を求める必要はなく、Python言語など適切なプログラミング言語などを利用して簡単に中央値を求めることができます。

4 平均値と中央値の違い

平均と中央値を比較すると、Table 1 のような違いがあります。

Table 1: 平均と中央値の比較
基準 平均 中央値
外れ値による影響 大きい 小さい
非対称な分布による影響 大きい 小さい
数学的な扱いやすさ 高い 平均ほど高くはない

4.1 平均値は外れ値の影響を受けやすい

外れ値 (outlier) とは「データセット中の値のうち、他の値とは大きく離れた値」のことを言います。平均は外れ値の影響を受けやすいことを、例を通して確認してみましょう。

例えば以下のデータがあるとします。

1, 2, 3, 4, 5

このデータの平均と中央値を計算すると、ともに3となります。外れ値を含んだデータではないので、平均と中央値は同じ値を示しています。ではこのデータに外れ値を加えてみましょう。他の値とは離れた値として15を追加します。

1, 2, 3, 4, 5, 15

このデータに対して平均と中央値を計算してみてください。平均は先ほどの3から5に更新されます。この5はデータの分布の中心として適切といえるのでしょうか?答えは”No”です。平均値である5よりも小さい値は1, 2, 3, 4の4個ありますが、5よりも大きい値は1個しかありません。大部分のデータは平均より小さいことになってしまいますので、これではデータを代表するとは言えないでしょう。一方の中央値は3.5ですので、平均値と比べると外れ値である15にそれほど引っ張られておらず、中央値の外れ値に対して影響されにくい性質が確認できたといえるでしょう。

4.2 平均値は非対称な分布の影響を受けやすい

Figure 1 (a)のように左右対称に分布するデータでは、平均値と中央値はほぼ一致します。一方、Figure 1 (b) のような非対称な分布では、平均値は中央値とは異なる値をとります。

この図ではデータが右側に伸びており、平均値はこれらのデータに引っ張られ、中央値よりも右側にずれています。この平均値よりも小さなデータの数を調べてみると、5958個となりました。データは10000個生成していますので、\frac{5958}{10000}、およそ6割のデータが平均値よりも小さな値であることがわかります。例えば学校などでテストを受けて、平均値以下だったので残念がっていたら、実は平均より高い得点の人は4割程度しかいなかった、と考えると、分布の中心としては必ずしも適切ではないでしょう。

このように非対称な分布では、平均値は分布の中心を表す指標として、必ずしも適切ではありません。一方の中央値では、非対称な分布であっても、中央値を挟んでデータが50%ずつ分布することになり、適切な指標であると言えます。

4.3 平均値ではなく、中央値を使えばよいのか?

平均値が外れ値や非対称な分布の影響を受けやすい事実に対して、中央値は外れ値や非対称な分布に影響されにくい特徴があります。また外れ値がなく、対称な分布であれば、平均値と中央値は一致します。この意味では、分布の中心を表したいのであれば、常に中央値を使ってよい、と言えそうです。

Number of data which is less than the mean: 5958

Figure 1: 平均値と中央値のずれ. (a) 対称なデータ. (b) 非対称なデータ.

4.4 なぜ平均値を使う?

分布の中心を調べるにあたって、中央値には平均値に見られない優れた特徴があります (Section 4) 。では平均値が必要ないかというと、全くそんなことはありません。平均値は対称な分布であれば中央値と一致し、問題なく利用できます。また、推測統計学 (inferential statistics) の観点では、平均値を使うことができる根拠があります。

推測統計学では、サンプル (sample) と呼ばれる手持ちのデータそのものではなく、そのサンプルが属する母集団 (population) について調べることを目的とします。例えば日本人の成人男性の平均的な身長を調べたいとします。成人男性すべての身長を調査することは難しいですが、一部の成人男性に調査に協力してもらうことは可能かもしれません。協力してもらった成人男性たちをサンプルとし、その身長から日本人の成人男性全体 (母集団) の平均的な身長を調べることができます。

推測統計学では、正規分布 (normal distribution) と呼ばれる左右対称の分布を多用します。そして、“サンプルの平均値は元の分布に関係なく、サンプルの数が多くなれば、正規分布に近づく”ことが知られています。このことを中心極限定理 (central limit theorem) といいます。つまり、“ある程度の大きさのサンプルがあり、その平均値を計算すれば、平均値は正規分布に従い、正規分布を基にした様々な解析が可能になります”。

ややこしいのは、“元のデータの平均値が正規分布に従う”という点です。また、あくまでもある程度のサンプル数が必要になります。一般的には30個や50個以上のデータが必要と言われています。データの数が少なく、分布が非対称であれば、平均値を使うことは適切ではありません。

4.5 平均値や中央値と、分布の散らばり具合を表す指標の組み合わせ

平均値と中央値はともに分布の中心を表す指標であり、データの特徴を表しています。しかし分布の中心を表す指標は、データの特徴のごく一部しか表すことができません。たとえ同じ平均値や中央値であっても、データの分布は大きく異なることがあります。

データの分布の特徴をより詳しく把握するためには、平均値や中央値に加えて、標準偏差やIQR (Interquartile Range) (四分位範囲とも呼ばれる) などの、データの散らばりを表す指標を加えることができます。

簡単に言って、標準偏差は平均値から各データががどのくらい離れているかを表します。平均値から離れたデータが多ければ、標準偏差は大きくなります。一方、IQRは中央値の周りで全データの50%が含まれる範囲を表します。データが中央値から離れて分布していれば、全データの50%を含む範囲は広くなり、その結果、IQRは大きくなります。

この点を踏まえると、平均値や中央値と、標準偏差、IQRは以下の組み合わせで用いることが自然です (Note 1):

  • 平均値:標準偏差
  • 中央値:IQR

例えば中央値と標準偏差を組み合わせて図を描くことは一般的ではありません。標準偏差は定義上、平均値からのずれを表しているからです。

Note 1: 平均値と標準偏差以外の組み合わせ

平均値と標準偏差の組み合わせは、元データのばらつきを表したいときに用います。推測統計学において、平均値とSE (standard error) (標準誤差) 、平均値と95%信頼区間 (95% confidence interval) を組み合わせることもよくあります。これらの組み合わせは目的によって変わってくるので、非常に複雑です。手持ちのデータのばらつきを表したいだけならば、平均値と標準偏差を組み合わせる、と覚えておきましょう。

このようなデータのばらつきを表す指標との組み合わせにおいても、平均値と中央値の使い方に注意する必要があります。

5 平均と中央値の使い分け

ではこれまで学習したことを踏まえ、平均と中央値をいつ使い分ければよいか、まとめておきましょう。

まずはヒストグラム (histogram) などを描いて、データの分布の特徴を視覚的に確認することを忘れないでください。データの分布を視覚的に把握しながら、Tip 2 のように使い分けます。

Tip 2: 平均値と中央値の使い分け

データの分布の中心について調べることが目的のとき:

  • データの分布が非対称の場合、または外れ値が見られる場合:
  • データの分布が対称であり、外れ値も見られない場合:
    • 平均値と中央値の値にほとんど差はありませんので、どちらでもよいでしょう。

サンプルから母集団の分布の中心を調べることが目的のとき:

  • 十分なデータ数がある場合:
    • サンプルの平均値は正規分布に従うと考えられ、平均値を使った解析が可能かもしれません。
  • 十分なデータ数がない場合:
    • サンプルそのものの分布が正規分布かどうかを確認するなど、さらなる対応を検討します。

  • データのばらつきを表す指標と組み合わせる際は、平均値は標準偏差を、中央値はIQRを用いましょう。

6 Keywords

  • 平均 (mean)
  • 中央値 (median)
  • 対称な分布 (symmetric deistribution)
  • 非対称な分布 (asymmetric/skewed distribution)
  • 外れ値 (outlier)

7 まとめ

この記事では平均と中央値の定義や違いを確認し、それぞれの使い分けについて解説しました。データの分布が非対称であったり外れ値が見られる場合、データの分布の中心を表す指標としては中央値が良いでしょう。一方でデータの分布が対称に近い場合は、平均値を使うことができます。またサンプルを使って母集団の分布の中心について調査する場合は、サンプル数が多ければ、元のデータの分布が非対称であっても、平均値を使うことができます。平均値や中央値は通常コンピュータプログラムを使って計算しますので、こういったツールを使いこなす必要がある点も重要です。