いっかくのデータサイエンティストをいく

1からプログラミングとデータサイエンスを独習したい

【時系列】時系列の基本統計量(理論編)

沖本本P6の内容です。

森棟本有斐閣統計学」第12章でも扱われております。

自己共分散

自己共分散は、同一の時系列データの別の2時点のデータ間の共分散のことです。 1期間離れたデータを1次のデータとすると、1次の共分散は f:id:imakoto0323:20180626155425p:plain となります。

自己共分散の性質

自己共分散は共分散と同じく1次の共分散が正の場合(期待値を基準に)同じ方向に動き、負の場合は逆に動きます。また1次の共分散がばらばらに動く(規則性はない)といえます。

k次の自己共分散

f:id:imakoto0323:20180626160434p:plain

これをkの関数としてみると自己共分散関数と言われ、自己共分散関数は正定値になります。 正定値の解説はこちら。

datahotel.io

自己相関係数

自己共分散を、値によって変化しないようにしたものが自己相関係数です。

f:id:imakoto0323:20180626161407p:plain

自己相関係数は単に自己相関とよくいいます。 自己相関をグラフに書いたものをコレログラムといい、下のような図です。

f:id:imakoto0323:20180626145438p:plain

確率過程

時系列データでは本来連続のはずで、観測点は無限にあります。しかしながら観測できるのは1点でそこから予測をするのは困難を極めます。そこで、今観測されている時系列データをある確率変数列からの1つの実現値とみなし、この確率変数の列の生成過程に仮定を置きます。これを確率過程といいます。

自己相関の検定

データが自己相関を持っている場合、その自己相関を踏まえた時系列モデルを記述できそのモデルを予測などに用いることができます。一方で自己相関を持っていないと時系列分析でできることが限られてしまいます。

つまりデータが自己相関を持っていることが大切なのです。

よく利用されるのはかばん検定というもので帰無仮説はすべての時点の自己相関が0、対立仮説は1つでも自己相関が0でない関係の2時点がある、です。

偏自己相関

y_ty_{t-k}の自己相関のうち、その間のt-1期からt-k-1期の影響を取り除いたものです。