いっかくのデータサイエンティストをいく

1からプログラミングとデータサイエンスを独習したい

【統計学】相関係数(理論編)

有斐閣統計学」2章SECTION5では共分散と3つの相関係数が紹介されています。

共分散

2変数間の散らばり具合を表します。ここでいう「散らばり」とは「散布図で点の散らばりが直線的になるか」ということです。 直線的であれば散らばりは小さく、逆に円形など直線的でなければ散らばりは大きくなります。標本共分散は\displaystyle S_{xy}で表し、

f:id:imakoto0323:20180611144357p:plain

となります。

標本相関係数

共分散は2変数間の散らばりを表してくれる指標でしたが、単位によって値が変わってしまう弱点がありました。つまり、10億円単位と1億円単位で標本共分散の値は100倍も変わってしまいます。そこで、観測単位に依存しないようにしたのが相関係数です。相関係数\displaystyle r_{xy}で表します。

f:id:imakoto0323:20180611144516p:plain

相関係数の性質

(1) -1から1の間の値をとる

(2) 相関係数が正のとき「正の相関」といい、負の値のときは「負の相関」という。 f:id:imakoto0323:20180611135144p:plain

(3) 0のときは「無相関」という。ただし、無相関だからと言って関係がないわけではない。

(4) 2変数が独立の場合「無相関」だが無相関だから「独立」というわけではない。 f:id:imakoto0323:20180611135438p:plain

相関係数の判断基準

一般的には * 〜 ± 0.2 ほぼ無相関 * 〜 ± 0.4 弱い相関あり * 〜 ± 0.7 中程度の相関あり * 〜 ± 1.0 強い相関あり と言われています。

標本自己相関係数

時間に沿ったデータ(気温の変化、株価など)を時系列データといいます。時系列データの場合、過去の観測値が未来の観測値に影響を与えている場合があります。端的に言うと、去年の株価が高いから今年も高い、のような。 そこで、過去の観測値と未来の観測値との相関関係(自己相関という)を見る指標が標本自己相関係数です。 時間差がh期間の標本自己相関係数をh次の自己相関係数といい\displaystyle \rho_{xy}で表します。

f:id:imakoto0323:20180611163535p:plain

順位相関

順位に基づいて相関係数を計算する際にはスピアマンの順位相関係数を用いる。 これは、端的に言うと「変数を値で並び替えた際の,順位についてピアソンの相関係数を計算したもの」ともいえる。

f:id:imakoto0323:20180611164350p:plain

相関係数にはほかにも種類があり、まとめてみたいものです。 実装編もやります。