1 はじめに

分散と標準偏差はどちらもデータが平均からどれだけ離れて分布しているかを表していますが、それぞれ違った特徴があります。この記事では、分散と標準偏差について簡単に説明した後、それぞれの違いと、統計学ではどのような場面で使い分けているのかを解説します。

2 分散の基本

分散の定義を以下に示します。分散を計算する際は、まず各データポイント (x_i) と平均 (\mu) との差 (x_i - \mu) を求めます。次にその平方 ((x_i - \mu)^2) を計算します。最後に計算した平方の平均値を計算します。これが分散です。

Definition 1 ((母)分散の定義) Definition of Population Variance

\sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}

ここで x_i は各データポイント、\mu は平均、N はデータポイントの総数です。

分散の値は平均を基準としたデータの分布の広がりを表しています。大きな分散の値ははデータポイントが平均から広い範囲にわたって分布していることを示し、一方で小さい分散の値はそれらが平均の近くに密集していることを示唆します。

例えば学校のテストの結果を思い出してみましょう。2つのクラスでテストの結果を比較してみると、1つのクラスではテストスコアに高い分散が見られる一方で、もう一つのクラスでは低い分散であるとしましょう。この場合、1つ目のクラスでは生徒たちの点数に大きな差があることが推測できる一方で、もう1つのクラスでは比較的均一な結果となっていると考えられます。このように分散を使うことで、平均値ではわからないデータの広がりについての情報を得ることができます。

分散はその定義式において元のデータを2乗しています。結果として分散の単位は元のデータの単位を2乗した単位になります。例えば元のデータの単位が長さ[m]であれば、分散の単位は面積[m^2]になります。

3 標準偏差の基本

標準偏差は分散と同じくデータのばらつき具合を表します。標準偏差は分散の平方根として定義されます。

Definition 2 ((母)標準偏差の定義) \sigma = \sqrt{\text{Variance}} = \sqrt{\frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}}

ここで x_i は各データポイント、\mu は平均、N はデータポイントの総数です。

Definition 1 と比較すると、確かに分散 (\sigma^2) の平方根 (\sigma) として標準偏差が定義されていることが確認できますね?このことは標準偏差の大きな特徴です。分散の単位は元のデータの2乗でした (See Section 2) 。一方で標準偏差は分散の平方根ですので、2乗された単位は平方根と打ち消しあいます。結果として標準偏差は元のデータと同じ単位を持っています (Note 1)。

NOTE 1: 単位の計算

単位を使って数字と同様の計算を行うことができます。例えば:

  • m \cdot m = m^2 (「長さ」かける「長さ」は「面積」)
  • \sqrt{m^2} = m (「面積」の平方根は「長さ」)
  • m/s \cdot s = m (「速度」かける「時間」は「距離」)

4 分散と標準偏差の違い

ここまで分散と標準偏差の基本的な内容を解説しました。その内容を基に、分散と標準偏差の違いについて確認してみましょう。

4.1 分散と標準偏差の単位の違い

これまでお話しした通り、分散の単位は元の単位の2乗 (Section 2) であり、標準偏差の単位は元のデータと同じでした (Section 3)。 分散と標準偏差はどちらもデータのばらつきを表す指標です。しかしながら、解析したデータの分布をまとめたり報告したりする際は、通常、分散ではなく標準偏差を用います。この理由はそれぞれの指標の単位が影響しています。

例えばある「ひも」の長さのデータが平均を中心にどのくらいの分布を持っているかを報告したいとします。平均は長さの単位を持っています。このデータのばらつきを表すとすると、例えば「平均 5m を中心として、その前後 0.1m の間に9割以上ののデータが入っている」とかだとわかりやすいですね?このとき、ひもを一本手に取ると、大抵の場合そのひもの長さは 4.9m から 5.1m の間であるとわかります。標準偏差は平均と同じ単位ですので、このような解釈が可能です。

一方、分散の単位は元の単位の2乗ですので、長さの2乗、つまり面積になります。「ひもの長さが~ m を中心に~ m^2 の間にだいたい分布している」、と言われてもよくわからないですよね。このように元のデータと単位が異なると、解釈がしにくくなります。したがって実際にデータのばらつきを表すにあたっては、標準偏差の方が使いやすいといえます。

5 分散と標準偏差の数式としての扱いやすさの違い

では分散はいらないかというと、そうではありません。統計手法の背景にある数学的な理論を理解するときは、標準偏差よりも分散の方が扱いやすいです。そもそも標準偏差に含まれる根号 (\sqrt{\square}) は式変形を行ううえで使いにくいので、2乗するなりして除去することが多いです。それなら初めから根号を持っていない分散を使った方が良い、というわけです。実際「根号」が原因で、分散では成立する公式が標準偏差では成立しないことがよくあります。もし標準偏差が必要になったら、その時点で根号を使えば変換できますので、分散を使うことの問題は特にありません。

数式を扱うときは分散の方に利点がある、といえそうですね。

6 まとめ

この記事では分散と標準偏差の定義と、使い分けについて解説しました。どちらが重要というわけではなく、それぞれの特徴を理解し、使い分けることが大切ですね。ちなみにばらつきを表す指標には標準偏差の他、四分位範囲 (IQR: Inter Quartile Range) も利用されます。こちらは平均ではなく中央値 (median) と一緒に用いられます。ばらつきの指標もデータによって使い分けることが重要です。