1 目的

散布図は2つの量的データ (quantitative data) の関係を視覚化する方法です。視覚化によりデータの分布のパターンを簡単に知ることができます。相関係数はデータの関係を数値として表す (定量化) ことができます。定量化によりデータが関連する程度を理解したり、比較を行いやすくなります。このように散布図と相関係数はどちらもデータの関連 (相関) を調べる際に用いられます。この記事では散布図と相関係数の関係について解説します。

2 散布図

散布図は二変量データを視覚化したグラフです。散布図では横軸、縦軸にデータポイントの各データを表示し、各データポイントは散布図上の点として表されます。散布図について詳しく学びたい場合は、以下の記事をご覧ください。

散布図について

3 相関係数

相関係数 (ピアソンの積率相関係数 (Pearson’s r) ) はデータの直線的な関連の強さや方向性を数値化することができます。データが連動していることを「相関 (correlation)」といいます。相関の強さは0から1までの値で、データの方向性は相関係数の符号でそれぞれ表されます。相関係数の値とデータの相関の強さ、方向性は Table 1 のようにまとめられます。正の相関 (positive correlation) では横軸の値が大きくなると合わせて縦軸の値も大きくなります。逆に負の相関 (negative correlation) では横軸の値が大きくなると縦軸の値は小さくなります。

相関係数の値と相関の強さについては絶対的な基準ではなく、個々の問題に応じて判断するものですので、注意してください。

Table 1: 相関係数の値と相関の「強さ」と「方向性」
Correlation Coefficient Strength Direction
1 Perfect Positive
0.7 to 1 Strong Positive
0.5 to 0.7 Moderate Positive
0.3 to 0.5 Weak Positive
0 to 0.3 Negligible Positive
0 Not correlated None
-0.3 to 0 Negligible Negative
-0.5 to -0.3 Weak Negative
-0.7 to -0.5 Moderate Negative
-1 to -0.7 Strong Negative
-1 Perfect Negative

カラム: 左から「相関係数」, 「相関の強さ」, 「相関の方向」。

4 散布図と相関係数の関係

散布図と相関係数はどちらもデータの相関を調べる際に用いられます。同じ相関を表しているので両者には関わりがあるはずですが、具体的にはどのような関係にあるのでしょうか?

Figure 1 は相関係数の値ごとに対応する散布図を表しています。左端の散布図では相関係数が 1 となっています。この時データポイントは一直線上に並びます。以降データポイントが散らばると、相関係数が小さくなっていく様子が確認できます。データポイントの傾向が右上がりの直線で表されるとき、相関係数は正の値をとります。右上がりの直線の傾きは正ですから、覚えやすいですね?横軸のデータと縦軸のデータが何ら連動せずに変化しているとき、相関係数は 0 となります。データの傾向が右下がりの直線で表されるとき、相関係数は負の値をとります。相関係数が -1 になるとデータポイントは負の傾きを持つ直線上に並びます。

Figure 1: 散布図と対応する相関係数
図の下の数字は相関係数を表す.

Figure 1 からわかることをまとめると Tip 1 ようになります:

TIP 1: : 散布図と相関係数の関係

相関の方向

  • 散布図上のデータポイントの傾向が右上がりの直線で表される \Rightarrow 正の相関係数
  • 散布図上のデータポイントの傾向が右下がりの直線で表される \Rightarrow 負の相関係数

相関の強さ

  • 強い相関 \Leftrightarrow 相関係数の絶対値が 1 に近い
  • 弱い相関 \Leftrightarrow 相関係数の絶対値が 0 に近い

なお本記事では説明しませんが、散布図と相関係数がこのようになる理由は相関係数の定義 (Definition 1) を使って理解することができます。

Definition 1 r = \frac{\sum_{i=1}^{n}{(x_i - \bar{x})(y_i - \bar{y})}}{\sqrt{\sum_{i=1}^{n}{(x_i - \bar{x})^2}} \sqrt{\sum_{i=1}^{n}{(y_i - \bar{y})^2}}}

相関係数などの各指標の定義を理解しておくことで、各指標の特徴や限界を理解するための助けになります。

5 相関係数の限界と散布図上のデータポイントの分布

相関係数はどのような分布に対しても相関を表すための適切な指標であるわけではありません。相関係数はあくまでも「データの直線的な関連の強さや方向性を数値化」します。つまり散布図上のデータポイントの分布が直線的ではない場合、相関係数ではデータの関連をうまく検出することができません。Figure 2 は直線的ではない (非線形な (non-linear)) 分布を示す散布図の例です。データポイントは放物線状の分布を示しています。相関係数はあくまでも「データが直線的に連動しているか」を示す指標ですので、このような非線形な関係についてはうまく表現できません。実際 Figure 2 では相関係数が 0.043 となり「ほぼ相関はない」と判断されてしまいます。しかし散布図を見ると横軸と縦軸のデータは明らかに放物線に沿った連動を示しています。したがってこのようなデータに対しては相関係数を使うことは適切ではないと判断できます。

相関係数を計算しただけではこのような判断を行うことはできないので、散布図を作成することが重要ですね。

ちなみにこのような非線形な分布に対して相関係数が適切な相関の指標とはならないことも、Definition 1 から理解することができます。指標の定義となる数式を理解することが、各指標の特徴や限界を理解する際に役立つことの例と言えます。

Figure 2: 非線形な分布を示す散布図

6 Keywords

  • 相関関係 (correlation)
  • 相関係数 (correlation coefficient)
  • 散布図 (scatter plot)

7 Summary Questions

以下の文章は正しいでしょうか?正しくない場合は、誤っている箇所を指摘し、正しく書き直しましょう。

  1. 相関係数はデータの直線的な関連の強さや方向性を数値化しているので、データの連動を見る際には相関係数だけで十分であるといえる。
  2. 相関係数が 1 に近いとき、散布図は右下がりの分布を示す。
  3. 相関係数が小さいほど、散布図のデータポイントは無秩序に分布する。

8 まとめ

この記事では散布図と相関係数の関係について解説しました。相関係数が 1 に近いとき散布図は右上がりの分布を示し、 -1 に近いときは右下がりの分布を示します。相関係数が 0 に近いときは散布図のデータポイントは無秩序に分布します。散布図と相関係数はどちらもデータの相関を調べる際に用いられますが、相関係数だけでは非線形な分布を検出することができません。合わせて散布図を作成することで、手持ちのデータに対する相関係数の妥当性を判断することができます。このような相関係数の性質はその定義に由来します。今後の学習で相関係数の定義についても学んでみてください。