1 目的
相関係数は2つのデータの直線的な連動 (相関) を数値化する際に用いられる指標です。たとえば学校のあるクラスで数学と英語のテストを受けたとすると、生徒一人ひとりが数学の得点と英語の得点をデータとして持っていると考えることができます。このとき数学の得点が高い人は英語の得点も高いのでしょうか?本記事ではこのような問いに対して用いられる相関係数の基礎を解説します。
2 相関係数とは
相関係数 (correlation coefficient) (ピアソンの積率相関係数 (Pearson’s r)) は2つのデータの直線的な連動 (相関) を数値化する際に用いられます。前述のように、たとえば学校のあるクラスで数学と英語のテストを受けたとしましょう。テストを受けた後、生徒一人はに数学の得点と英語の得点を持っています。相関係数はこの2つのデータが直線的に連動 (相関) を表した数値です。
Figure 1 に示したように、相関係数は -1 から 1 までの値をとります。相関係数の値が 1 に近いとき横軸のデータが増加すると、縦軸のデータも同様に増加する傾向がはっきりと表れます。相関係数の値が -1 に近いとき、横軸のデータが増加すると縦軸のデータは逆に減少する傾向を見せます。相関係数の値が 0 に近いと、横軸のデータと縦軸データは特に連動していないと判断できます。
たとえば「数学の得点」と「英語の得点」の相関係数が 1 に近ければ、数学の得点が高い人は英語の得点も高い傾向が見られると考えられます。相関係数が 0 に近ければ、数学の得点が高い人の中でも、英語の得点が高い人から低い人までばらばらに分布することがわかります。
Figure 1 のように相関係数の値に対する散布図の形、逆に散布図に対する相関係数の値を思い浮かべることができるようになっておくと、相関係数の解釈を行いやすいと思います。

図の下の数字は相関係数を表す.
3 相関係数の目安
相関係数の値からどのようなことが言えるのか、より詳しく見てみましょう。Table 1 は相関係数の値と2つのデータの相関 (データの連動) についてのおおよその目安を示しています。相関関係については「強さ」と「方向」の2つの要素がある点に注意してください。
相関係数が 0.7 以上あると、相関の強さは「大きく (strong)」、方向は「正 (positive)」であるといえます。「正の相関 (positive correlation)」と言われることもあります。この「正」の方向というのは、片方のデータが大きくなると、もう片方のデータも同様に大きくなることを意味します。相関係数の値が正であることと合わせて「正の方向」だとか「正の相関」と表現することを覚えておきましょう。
相関係数の値が 0 に近くなると、無相関と判断されます。さらに小さくなって相関係数が負の値になると方向は「負 (negative)」になります。さらに -1 に近づくと「強い負の相関」と表現されるようになります。
ただし Table 1 に示した相関係数の値はあくまで目安であり、文献によっては異なる値や分類を使っていることがよくあります。また 0.51 はほどほどの強さで、 0.49 は弱いといった分類にもあまり意味はありません。相関係数を計算するデータの性質などを見ながら臨機応変に判断することが重要です。
Correlation Coefficient | Strength | Direction |
---|---|---|
1 | Perfect | Positive |
0.7 to 1 | Strong | Positive |
0.5 to 0.7 | Moderate | Positive |
0.3 to 0.5 | Weak | Positive |
0 to 0.3 | Negligible | Positive |
0 | Not correlated | None |
-0.3 to 0 | Negligible | Negative |
-0.5 to -0.3 | Weak | Negative |
-0.7 to -0.5 | Moderate | Negative |
-1 to -0.7 | Strong | Negative |
-1 | Perfect | Negative |
カラム: 左から「相関係数」, 「相関の強さ」, 「相関の方向」。
4 相関係数の解釈における注意点
4.1 相関係数は直線的ではない連動を検出できない
相関係数を調べることで2つのデータの連動について調べることができるわけですが、相関係数だけでこの連動を判断することは危険です。相関係数はあくまでも「直線的な」連動を表す指標です。言い換えると、直線的ではない連動については検出することができません。Figure 2 を見ると横軸と縦軸のデータは明らかに放物線に沿った連動を示しています。ところがこの2つのデータの相関係数は 0.043 です。相関係数だけを見ると、2つのデータは連動していないと判断されるでしょう。
「明らかに連動しているのに相関係数は 0 に近い値を示す」。この理由は Figure 2 のデータは直線的に分布していないからです。相関係数は直線的な連動を検出しますので、直線的ではない (非線形な) 連動については検出できていないことがわかりますね?
なぜ相関係数が直線的な連動しか検出できないのか、その理由は相関係数の定義にあります (Definition 1) 。本記事では説明しませんが、相関係数を含め統計学に出てくる指標の数式で表された定義を理解すると、統計学の理解が一層深まり、適切な手法を選択することができます。

Definition 1 r = \frac{\sum_{i=1}^{n}{(x_i - \bar{x})(y_i - \bar{y})}}{\sqrt{\sum_{i=1}^{n}{(x_i - \bar{x})^2}} \sqrt{\sum_{i=1}^{n}{(y_i - \bar{y})^2}}}
4.2 相関関係は因果関係とは異なる
本記事で解説しているような2つのデータが連動することを相関関係といいます。これに対して2つの出来事が原因と結果の関係にあることを「因果関係にある」といいます。この相関関係と因果関係は異なる概念であることに注意してください。
相関関係はあくまでも2つのデータが連動していることを意味します。例えば以下の仮想的な状況を想定してみましょう:
"夏季において、ある地域におけるアイスクリームの消費量とプールの入場者数に正の相関がみられた。"
正の相関があるからと言って、アイスクリームの消費量がプールの入場者数が増える原因であるとは考えにくいかもしれません。この例では夏になって気温が上がった結果、アイスクリームの消費量やプールの入場者数が増加したと考えられます。つまりアイスクリームの消費量とプールの入場者数には「気温の上昇」という共通の原因があり、結果としてアイスクリームの消費量とプールの入場者数に正の相関がみられたわけです。
このようなシンプルな例では明らかかもしれませんが、実際に相関関係について解析を行う際には注意が必要です。
5 Keywords
- 相関係数 (correlation coefficients)
- 正の相関 (positive correlation)
- 負の相関 (negative correlation)
6 Summary Questions
以下の文章は正しいでしょうか?正しくない場合は、誤っている箇所を指摘し、正しく書き直しましょう。
- 相関係数は2つのデータが直線的に連動を表した数値である。
- あつ2つのデータA, Bについて相関係数を調べると 0.8 であった。この2つのデータは強い正の相関を示しており、Aの増加が原因となってBが増加していることを確認できたといえる。
7 まとめ
本記事では相関係数の基本について解説しました。相関係数は2つのデータが直線的な連動を調べることができます。目安となる数値は存在しますが、相関係数の値は扱う問題ごとに判断することが重要です。また相関係数は直線的ではないデータの連動は検出できない点にも注意が必要です。相関関係と因果関係は異なる概念ですので、慎重に判断していくことが重要です。「まずは散布図を描き、データの直線的な連動を確認してから、相関係数によりその方向や強さを定量化する」ことから始めていきましょう。