1 目的
データによっては一つのデータポイント (data point) が複数のデータを持っている場合があります。例えば20人に対して身長と体重を調べたとすれば、一人ひとりはデータポイントと呼ばれ、各データポイントは身長と体重という2つのデータを持つことになります。このようなデータのことを二変量データ (bivariate data) といいます。
二変量データでは変数同士の関係を調べることをよく行います。例えば「身長が高くなると体重はどのように変化するか」を調べます。このような関係を視覚化する方法として散布図 (scatter plot) が挙げられます。
この記事では散布図とは何か、散布図の構造や、散布図の読み取り方を解説します。
2 散布図とは
散布図とは二変量データが持つ2つのデータの値をそれぞれ横軸、縦軸にとり、それら2つの値から決まる平面上の位置にデータポイントをプロットした図のことを言います。例えば Figure 1 のように1行ごとに身長と体重を保存したデータがあるとします。これを基に作成した散布図が Figure 2 です。Figure 2 では各データポイントは身長 (height) と体重 (weight) という2つのデータを持っています。横軸の値が150 [cm]程度のデータポイントを見ると、縦軸の値は52.5 [kg] より少し大きな値を持っていることがわかります。数学で学習する xy -平面と同様ですので、わかりやすいと思います。このようにして各データポイントは散布図上に配置されています。
Height | Weight | |
---|---|---|
0 | 198.9 | 70.4 |
1 | 158.2 | 59.1 |
2 | 159.0 | 57.3 |
3 | 164.9 | 58.4 |
4 | 179.5 | 67.1 |
3 散布図の見方
散布図からは横軸と縦軸のデータの関連を見ることができます。例えば Figure 2 では身長が高くなると体重も大きくなる傾向が確認できます。
散布図は回帰 (regression) という解析と組み合わせて使われることが多くあります。回帰とは簡単に言って、連続データ (continuous data) を予測するための方法です。例えば Figure 2 では適当な右上がりの直線を使って身長からおおよその体重の値を予測することができます。将来的に入手した横軸の値から縦軸の値を予測するので、横軸の変数は「独立変数 (independent variable)」と呼ばれ、縦軸の変数は「従属変数 (dependent varible)」と呼ばれます。まず独立変数の値があり、それに従って (従属して) 従属変数の値が決まるという考え方です。したがって散布図を見たり作成するときには、「横軸の値 (独立変数) に対して縦軸の値 (従属変数) がどのように変化するか」という視点を持っておくとよいでしょう。
Figure 2 における分布以外にも、散布図は様々な分布を描きます。横軸の値が増えると縦軸の値は逆に減少する場合、横軸と縦軸に特に連動する様子が見られない場合、横軸の値の増加に対して縦軸の値が急速に増加する場合、データポイントが円状に分布する場合など様々な分布が想定されます。いずれにしても様々な解析を行う前に散布を描いて各変数の関連を確認し、データの特徴を理解することが、解析を進めるうえで重要となります。散布図の例については別記事でまとめる予定です。
散布図では「外れ値 (outlier)」を視覚的に見つけることも可能です他のデータポイントから離れた位置にあるデータポイントが外れ値となります。
二変量の関係は相関係数 (correlation coefficient) を使って数値化することができますが、数値を求める前に散布図を作成しておきましょう。数値はデータの分布の要約ですので、分布の細かい様子はわかりません。分布の仕方次第では、計算しようと思っている相関係数が実は適切ではない場合も考えられます。解析の方向を考えるうえで重要な情報になってきますので、散布図の作成を忘れずに行い二変量の分布の様子を把握しておきましょう。
4 Keywords
- データポイント (data point)
- 散布図 (scatter plot)
- 二変量データ (bivariate data)
- 外れ値 (outlier)
5 Summary Questions
- 散布図を作成する目的を簡単に説明しましょう。
6 まとめ
二変量データから散布図を作成する目的や、散布図の構造、読み取り方を解説しました。散布図は二変量の関係を視覚化することのできる優れた方法です。二変量の関係を数値化する前に散布図を作成し、解析の方向性が妥当かどうか確認するようにしましょう。