1 はじめに
分散と標準偏差はどちらもデータが平均からどれだけ離れて分布しているかを表していますが、それぞれ違った特徴があります。この記事では、分散と標準偏差について簡単に説明した後、それぞれの違いと、統計学ではどのような場面で使い分けているのかを解説します。
2 そもそもデータのばらつきとは?
データを何の処理もなしに眺めているだけでは、データの持つ有益な情報に気づくことは難しいです。そこで統計学では、データの何らかの特徴を表すことのできる数値を計算して、データの要約を行います。
2.1 平均値を使ったデータの要約
例えば平均値を見たり、計算したりしたことがあると思います。平均値はデータを要約する数値 (統計量) の一つであり、データが分布する中心を表しています。“テストA”と”テストB”という2つの試験を考えてみましょう。テストAとテストBをそれぞれ10人、計20人が受けたとし、その結果は以下のようになったとします:
- テストA:
48, 49, 50, 51, 50, 49, 52, 50, 49, 51 - テストB:
30, 70, 20, 80, 10, 90, 50, 60, 40, 100
Mean of Test A: 49.9
Mean of Test B: 50
SD of Test A: 1.1357816691600546
SD of Test B: 28.722813232690143
この2つのテストの平均値を比べてみると、テストAでは49.9点、テストBでは50点となり、ほぼ同じ平均値であることがわかります。では、“平均値が同じなのだから、だいたい同じデータである”、と言えるのでしょうか?
2.2 ヒストグラムによるテストAとテストBの分布の確認
試しにヒストグラムを描いて、各テストにおける得点の分布をチェックしてみましょう (Figure 1)。
0点から100点までの得点 (横軸), 得点の数 (縦軸). 黄色の縦線: 平均値, オレンジ色の横線: 標準偏差.
この図はヒストグラムと呼ばれます。横軸を2点刻みに区切り、各区分に含まれる得点の数をカウントしています。黄色の縦線は平均値を表しており、Section 2.1 で確認した通り、2つのテストが同程度の平均値を持つことが確認できます。
ところが、2つの分布は大きく異なっています。テストAでは得点が平均値付近に集まっていますが、テストBではかなり広い範囲に散らばっています。このことから、平均だけではデータの特徴が十分にあらわせない場合があることがわかります。
2.3 分散や標準偏差が表すデータのばらつき
分散や標準偏差は、このようなデータの散らばり具合を表すことができます。Figure 1 のオレンジ色の横線は、標準偏差を表しています。テストAでは線が短く、データが平均値の近くに分布していることがわかる一方、テストBでは線が長く、データが平均から散らばって分布しています。
次のセクションでは、分散、標準偏差の基本や定義を確認していきましょう。
3 分散の基本
分散の定義を以下に示します。分散を計算する際は、まず各データポイント (x_i) と平均 (\mu) との差 (x_i - \mu) を求めます。次にその平方 ((x_i - \mu)^2) を計算します。最後に計算した平方の平均値を計算します。これが分散です。
Definition 1 ((母)分散の定義) Definition of Population Variance
\sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}
ここで x_i は各データポイント、\mu は平均、N はデータポイントの総数です。
分散の値は平均を基準としたデータの分布の広がりを表しています。大きな分散の値はデータポイントが平均から広い範囲にわたって分布していることを示し、一方で小さい分散の値はそれらが平均の近くに密集していることを示唆します。
Section 2.2 で学んだ通り、2つのテストの結果を比較してみると、テストAでは得点の分散・標準偏差が低い一方で、テストBでは得点に高い分散が見られました。
この場合、テストAでは比較的均一な結果となっていると考えられる一方で、テストBでは点数に大きな差があることが推測できました。このように分散・標準偏差を使うことで、平均値ではわからないデータの広がりについての情報を得ることができます。
分散はその定義式において元のデータを2乗しています。結果として分散の単位は元のデータの単位を2乗した単位になります。例えば元のデータの単位が長さ[m]であれば、分散の単位は面積[m^2]になります。
4 標準偏差の基本
標準偏差は分散と同じくデータのばらつき具合を表します。標準偏差は分散の平方根として定義されます。
Definition 2 ((母)標準偏差の定義) \sigma = \sqrt{\text{Variance}} = \sqrt{\frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}}
ここで x_i は各データポイント、\mu は平均、N はデータポイントの総数です。
Definition 1 と比較すると、確かに分散 (\sigma^2) の平方根 (\sigma) として標準偏差が定義されていることが確認できますね?このことは標準偏差の大きな特徴です。分散の単位は元のデータの2乗でした (See Section 3) 。一方で標準偏差は分散の平方根ですので、2乗された単位は平方根と打ち消しあいます。結果として標準偏差は元のデータと同じ単位を持っています (Note 1)。
Note 1: NOTE: 単位の計算
単位を使って数字と同様の計算を行うことができます。例えば:
- m \cdot m = m^2 (「長さ」かける「長さ」は「面積」)
- \sqrt{m^2} = m (「面積」の平方根は「長さ」)
- m/s \cdot s = m (「速度」かける「時間」は「距離」)
5 分散と標準偏差の違いと使い分け
ここまで分散と標準偏差の基本的な内容を解説しました。その内容を基に、分散と標準偏差の違いについて確認してみましょう。
5.1 分散と標準偏差の単位
これまでお話しした通り、分散の単位は元の単位の2乗 (Section 3) であり、標準偏差の単位は元のデータと同じでした (Section 4)。 分散と標準偏差はどちらもデータのばらつきを表す指標です。しかしながら、解析したデータの分布をまとめたり報告したりする際は、通常、分散ではなく標準偏差を用います。この理由はそれぞれの指標の単位が影響しています。
例えばある「ひも」の長さのデータが平均を中心にどのくらいの分布を持っているかを報告したいとします。平均は長さの単位を持っています。このデータのばらつきを表すとすると、例えば「平均 5m を中心として、その前後 0.1m の間に9割以上ののデータが入っている」とかだとわかりやすいですね?このとき、ひもを一本手に取ると、大抵の場合そのひもの長さは 4.9m から 5.1m の間であるとわかります。標準偏差は平均と同じ単位ですので、このような解釈が可能です。
一方、分散の単位は元の単位の2乗ですので、長さの2乗、つまり面積になります。「ひもの長さが~ m を中心に~ m^2 の間にだいたい分布している」、と言われてもよくわからないですよね。このように元のデータと単位が異なると、解釈がしにくくなります。したがって実際にデータのばらつきを表すにあたっては、標準偏差の方が使いやすいといえます。
5.2 分散と標準偏差の数式としての扱いやすさの違い
では分散はいらないかというと、そうではありません。統計手法の背景にある数学的な理論を理解するときは、標準偏差よりも分散の方が扱いやすいです。そもそも標準偏差に含まれる根号 (\sqrt{\square}) は式変形を行ううえで使いにくいので、2乗するなりして除去してしまいます。それなら初めから根号を持っていない分散を使った方が良い、というわけです。
実際「根号」が原因で、分散では成立する公式が標準偏差では成立しないことがよくあります。もし標準偏差が必要になったら、その時点で根号を使えば変換できますので、分散を使うことの問題は特にありません。
数式を扱うときは分散の方に利点がある、といえそうですね。
6 まとめ
この記事では分散と標準偏差の定義と、使い分けについて解説しました。どちらが重要というわけではなく、それぞれの特徴を理解し、使い分けることが大切です。ちなみに”ばらつき”を表す指標には標準偏差の他、四分位範囲 (IQR: Inter Quartile Range) も利用されます。こちらは平均ではなく中央値 (median) と一緒に用いられます。データによっては標準偏差よりも四分位範囲を使った方が良い場合もあります。
有料コンテンツ
本文中の図を作成するコードを、簡単な解説付きでご覧いただけます。
- プログラミング言語
- “Python”言語
- 閲覧できる主なコード
- Test A、Test Bの平均値、標準偏差を計算するコード
- Test A、Test Bの標準偏差を比較した図
下記リンクからご購入後、ご覧いただけます。









