【統計学】相関係数（理論編） - いっかくのデータサイエンティストをいく

有斐閣「統計学」2章SECTION５では共分散と3つの相関係数が紹介されています。

共分散

2変数間の散らばり具合を表します。ここでいう「散らばり」とは「散布図で点の散らばりが直線的になるか」ということです。直線的であれば散らばりは小さく、逆に円形など直線的でなければ散らばりは大きくなります。標本共分散は $\displaystyle S_{xy}$ で表し、

f:id:imakoto0323:20180611144357p:plain

となります。

標本相関係数

共分散は2変数間の散らばりを表してくれる指標でしたが、単位によって値が変わってしまう弱点がありました。つまり、10億円単位と1億円単位で標本共分散の値は100倍も変わってしまいます。そこで、観測単位に依存しないようにしたのが相関係数です。相関係数は $\displaystyle r_{xy}$ で表します。

f:id:imakoto0323:20180611144516p:plain

相関係数の性質

(1)　-1から1の間の値をとる

(2)　相関係数が正のとき「正の相関」といい、負の値のときは「負の相関」という。 f:id:imakoto0323:20180611135144p:plain

(3)　0のときは「無相関」という。ただし、無相関だからと言って関係がないわけではない。

(4)　2変数が独立の場合「無相関」だが無相関だから「独立」というわけではない。 f:id:imakoto0323:20180611135438p:plain

相関係数の判断基準

一般的には * 〜 ± 0.2　ほぼ無相関 * 〜 ± 0.4　弱い相関あり * 〜 ± 0.7　中程度の相関あり * 〜 ± 1.0　強い相関ありと言われています。

時間に沿ったデータ（気温の変化、株価など）を時系列データといいます。時系列データの場合、過去の観測値が未来の観測値に影響を与えている場合があります。端的に言うと、去年の株価が高いから今年も高い、のような。そこで、過去の観測値と未来の観測値との相関関係（自己相関という）を見る指標が標本自己相関係数です。時間差がh期間の標本自己相関係数をh次の自己相関係数といい $\displaystyle \rho_{xy}$ で表します。