いっかくのデータサイエンティストをいく

1からプログラミングとデータサイエンスを独習したい

R

【時系列】GARCHモデル(R)

今回はRで実装します。 今回はこちらのサイトを写経します。 ドル円のボラティリティをGARCHで推定 – Momentum データ まず、データはFRED先生からドル円レートを落としてきて使います。 Japan / U.S. Foreign Exchange Rate | FRED | St. Louis Fed Rで実装…

【時系列】GARCHモデル(理論編)

沖本本7章から。 はじめに ファイナンスの世界では標準偏差のことをボラティリティとよび、重要視されています。それは分散が「最大でどれくらい損益があるか」を示していsるからです。今回はボラティリティ変動モデルです。リスクの大きさをモデリングして…

【時系列】共和分

沖本本5章から。 共和分 単位根の持つデータ同士で回帰分析した場合、見せかけの回帰になってしまうことが多いです。もうあきらめるしかないのか。。。 そんなことはありません!見せかけではない場合があります! それは共和分を持っているときです。 共和…

【時系列】差分系列と単位根検定

沖本本5章から。 差分系列 非定常なデータは時間によって期待値が変化するため予測ができません。 しかし、非定常なデータでも差分をとることによって定常になることがあります。これを差分系列と呼びます。差分をとることはよくやることで一見分析ができな…

【時系列】VAR(インパルス応答)

沖本本4章3から。 インパルス応答とは ある変数にインパクトを与えると、その影響がどれくらい続くのかをインパルス応答といいます。消費が急に増えると収入にどんな影響があるのかを定量的に評価できます。 そして「時間遅れ(タイムラグ)」の向きを見るこ…

【時系列】VAR(グレンジャーの因果性検定)

沖本本4章3から。 グランジャーの因果性 現在と過去のxの値だけに基づいた将来のxの予測と、現在と過去のxとyの値に基づいた将来のxの予測を比較して、後者のMSE(残渣平方和)の方が小さくなる場合、ytからxtへのグレンジャー因果性(Granger causality)が存…

【時系列】VAR(R:予測)

前回の記事の推計結果に基づいて予測をしてみましょう。 予測にはpredict関数を用います。 yosoku <- predict(Canada.var , n.ahead = 8 #8期先まで予測 , ci = 0.95 #95%信頼区間 , dumvar = NULL) kekka <- ts(yosoku$fcst$e[,1], start=1999, frequency=4…

【時系列】VAR(R:モデル作成)

前回の記事でVARの理論を紹介しましたが、今回はVARをRで実装してみたいと思います。 今回はこちらのサイトとほぼ同じことをやります。 tjo.hatenablog.com logics-of-blue.com パッケージと分析手順 RでVARモデルを実装する場合、{vars}というパッケージを…

【備忘録】エラーバーの表示

2か月ぶりの更新です。 お久しぶりになってしまい申し訳ありません。 いろいろあったので。。。 今回は仕事で使う機会あありました「エラーバーの表示」です。 参考はこちら tips-r.blogspot.com gplotsパッケージのplotmeans関数を使います。 #データ x gro…

【時系列】ARIMA(R)

前回のARIMAモデルをRで実装していきたいと思います。 使用するデータ 2015年1月から2018年7月までの日経225の終値を利用したいと思います。データの作成方法は下記のサイトを参考にしました。 gist.github.com ちなみにPythonやらで使用したいためcsvでいっ…

【時系列】MA・AR・ARMA(理論編とR)

沖本本第2章のお話です。 有斐閣「統計学」の第12章にも載っています。 さらに今回はこちらも参考にいたしました。 はじめに 正直このあたりから少しずつ難しくなってくるころだと思います。 最初読んだときはほとんど意味がわかりませんでした。 今回は要…

【時系列】自己共分散と自己相関(R)

前回の実装です。自己共分散と自己相関の実装となります。 Rで実装 データは1994年から2017年の名目GDPです。 #データ読込 df <- read.csv("C:\\Users\\imoto-mk\\Documents\\meimoku_GDP.csv") df # Year GDP #1 1994 502636.2 #2 1995 516406.5 #3 1996 52…

【時系列】時系列分析の基礎概念と定常性・ホワイトノイズ

今日から通称沖本本で時系列分析をやっていきたいと思います。 時系列は森棟本有斐閣「統計学」第12章でも扱われております。 今回は第1章「時系列分析の基礎概念」の実装以外の概念をやりたいと思います。 ブログは数式を描くと読者が減るといわれているら…

【統計学】ダミー変数(RとPython)

有斐閣「統計学」第11章SECTION5になります。この本もそろそろ終わりに近づいてきました。 ダミー変数とは 男と女、花が咲いた・咲かなかった、上位100位とそれ以外など、2つのグループに分けることのできるものがあります。それを回帰分析の説明変数に入れ…

【統計学】相関係数の検定(RとPython)

文字通り相関係数に差があるかどうかの検定です。 帰無仮説は相関係数をρとするとρ=0、対立仮説はρ≠0となります。 つまり2群に直線的な関係性があるかどうか確かめる検定ということになります。 データは教科書有斐閣「統計学」P60のJリーグの表です。 Rで…

【統計学】平均の差の検定(RとPython)

平均の差の検定。ある2群の標本が独立(つまり別の集団からのサンプリング)か、同じ母集団なのか(つまり母平均が等しい)か確かめるための検定です。 データはおなじみの上記書籍のP60にあるJリーグの試合結果のデータを使用します。 Rで実装 #勝数 wins <…

【統計学】等分散の検定(RとPython)

教科書有斐閣「統計学」P60のJリーグの表をもとに、同書P327の分散の検定を行います。 単純に2群の分散が同じかどうか確かめる検定です。平均の検定でも帰無仮説を棄却できず、分散の検定でも帰無仮説を棄却できない場合は同じ分布の可能性があります。 Rで…

【統計学】ベルヌーイ試行の成功確率(RとPython)

ベルヌーイ試行の成功確率についての検定を行います。ベルヌーイ試行とはコインの表と裏のように二者択一の問題です。 例を考えたほうがわかりやすいので、有斐閣「統計学」P322の例題10.2をそのまま実装してみます。 例題 新たにF内閣が発足し、支持率の調…

【統計学】母集団既知の平均の検定(RとPython)

教科書第10章になります。 母平均に関する検定です。母平均が既知で、標本平均が母集団の平均と重なるかどうか検定します。 Rで実装 t.testで簡単にできます。 詳しいパラメータはこちら。 データ解析・マイニングとR言語 今回は教科書P320 の例題10.1(1)(2)…

【統計学】尤度関数(RとPython)

教科書有斐閣「統計学」第9章SECTION4の内容です。 尤度関数。正直苦手です。 ですので間違えている可能性も大なので炎上マーケ大歓迎です。 最尤推定法とは 自分で説明するよりも下のサイトのほうがはるかにわかりやすいです。 mathtrain.jp 下の実装もこ…

【統計学】区間推定(RとPython)

下の教科書第9章に当たります。 区間推定とは 国勢調査など一部を除き、ふつうはアンケートや視聴率など母集団のうちの一部から母数を推定します。しかしサンプルサイズが十分でない場合、推定量が偏っている場合もあります。そこで、真の母数の入っていそう…

【統計学】順列と組み合わせ(RとPython)

高校数学Aでおなじみの場合の数。下記教科書では5章に簡単に説明されています。 Rで実装 #階乗 #5! factorial(5) #[1] 120 #順列 #8個から3つ並べる方法 n <- 8 r <- 3 prod((n-r+1):n) #[1] 336 #3つのものを並べる方法一覧 #install.packages("e1071") lib…

【統計学】回帰分析と最小二乗法(R)

3回にわたって解説してきました回帰分析をRで実装してみたと思います。 有斐閣「統計学」3章です。 Rで実装 Rではlm関数で回帰分析を行えます。lm関数を適当な変数に入れ、入れた変数をsummary()に入れると詳しい結果がでます。 #データ:教科書P60 Jリーグ…

【統計学】相関係数(R)

前回解説いたしました相関係数をRで実装してみたいと思います。 共分散 データ 散布図でも使用しました上記書籍のP60にあるJリーグの試合結果のデータを使用します。 #勝数 wins <- c(22, 20, 20, 18, 17, 18, 13, 13, 13, 13, 13, 13, 13, 12, 12, 5, 6, 4)…

【統計学】分割表(クロス集計)(R)

2変数データの確認の王道、クロス集計。 有斐閣「統計学」2章SECTION5では分割表として紹介されています。 用意するデータ 上記教科書の表2-6を参照します。 性別と禁煙するか否かのデータです。 教科書では喫煙は〇×ですが、ここでは1=喫煙, 0=喫煙しない…

【統計学】度数分布表とヒストグラム(R)

Rで度数分布表とヒストグラムを実装します。 上の書籍の第1章SECTION5に該当。 この記事ではRで実装する。 データを確認する データは0から200までの数字をランダムで100個発生させた下のようなものを使用します。 154,196,190,28,122,78,150,99,72,117, 73,…

【統計学】代表値(RとPython)

有斐閣の「統計学」をもとに統計学を復習中。 今回は代表値の実装。上記書籍の第1章SECTION1に該当。 代表値 平均 中央値(メジアン) 観測値を大小に並べ、真ん中に位置する数。 最頻値(モード) 観測値の中でもっとも頻繁に表れた数。 Rで実装 x <- c(0,…