相関分析と相関係数

2016年11月7日

おいちゃんです。漏れた項目2回目は相関係数です。これ、本当は散布図の一部だったのかもね。区切りが難しい!

相関係数

二組の値のデータについて、特性や要因間の関係やその強さは散布図で概略を掴むことができます。

これを数値として表す統計量が相関係数。分布が線形であるかどうか(\(y=a_0+ax\)にあてはまるかどうか)を表すもので、-1から+1までの値をとります。

  • +が正の相関、-が負の相関
  • 0が無相関で絶対値が大きいほど相関が強い

注意点としてふたつ。

  • 影響の大きさを表すものではないので、相関係数だけで判断しない
  • 相関係数は外れ値に敏感なので、相関係数だけで特性の関連を推測することは危険

ということで、必ず実際の散布図を見て確認することが必要だそうです。

定義式

対になったx,yデータについて相関係数rは次のようになります。

\[r=\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}\]
  • Sxx:xの偏差平方和
  • Syy:yの偏差平方和
  • Sxy:xとyの共分散(偏差積和)

共分散とは二つの変数において片方の変数の値が変わるともう一方の値がどう変わるかを示す指標です。変数の分布に大きく影響を受けるものです。

この共分散を2乗したものを寄与率といいます。これは一方の変動が他方の変動で説明される割合になります。

たとえばr2=0.9のとき、xとyはそれぞれ値の90%が他方の変動で説明されるとのことです。