いっかくのデータサイエンティストをいく

1からプログラミングとデータサイエンスを独習したい

統計学

【統計学】回帰分析と最小二乗法(Python)

今回はPythonで単回帰分析です。調べてみるといろいろやり方があるようです。 データはおなじみの上記書籍のP60にあるJリーグの試合結果のデータを使用します。 statsmodelで単回帰分析 こちらは回帰分析の結果の要約が出ます。 wcs.hatenablog.com import p…

【統計学】回帰分析と最小二乗法(理論編その3)

前回、前々回と回帰分析の理論とくに回帰係数の求め方について説明しました。 今回は実際に回帰分析を行う際に特に注目する指標を簡単に説明します。 決定係数 求めた回帰式が実際の観測値どれくらい説明できたか示す指標です。 決定係数は0から1の間の値を…

【統計学】回帰分析と最小二乗法(R)

3回にわたって解説してきました回帰分析をRで実装してみたと思います。 有斐閣「統計学」3章です。 Rで実装 Rではlm関数で回帰分析を行えます。lm関数を適当な変数に入れ、入れた変数をsummary()に入れると詳しい結果がでます。 #データ:教科書P60 Jリーグ…

【統計学】回帰分析と最小二乗法(理論編その2)

前回の続きです。今回は実際に残差平方和を最小にして傾きを求めます。 残差を最小にする 前回の復習で、残差平方和は以下のようになりました。 こちらを最小となるようにbを求めます。なお、残差二乗和を最小とするので、最小二乗法といいます。 正規方程式…

【統計学】回帰分析と最小二乗法(理論編その1)

2変数間の関係を分析する代表的な手法に単回帰分析があります。今回はその理論を考えてみたいと思います。 私は統計学の面白さにこの単回帰分析からはまったといっても過言ではないくらいです。 なお、今回は微分やらΣやらがいっぱい出てきます。読みたくな…

【統計学】相関係数(Python)

前回解説いたしました相関係数を今度はPythonで実装してみたいと思います。 共分散 データ 散布図でも使用しました上記書籍のP60にあるJリーグの試合結果のデータを使用します。 #勝数 wins = [22, 20, 20, 18, 17, 18, 13, 13, 13, 13, 13, 13, 13, 12, 12,…

【統計学】相関係数(R)

前回解説いたしました相関係数をRで実装してみたいと思います。 共分散 データ 散布図でも使用しました上記書籍のP60にあるJリーグの試合結果のデータを使用します。 #勝数 wins <- c(22, 20, 20, 18, 17, 18, 13, 13, 13, 13, 13, 13, 13, 12, 12, 5, 6, 4)…

【統計学】相関係数(理論編)

有斐閣「統計学」2章SECTION5では共分散と3つの相関係数が紹介されています。 共分散 2変数間の散らばり具合を表します。ここでいう「散らばり」とは「散布図で点の散らばりが直線的になるか」ということです。 直線的であれば散らばりは小さく、逆に円形な…

【統計学】分割表(クロス集計)(R)

2変数データの確認の王道、クロス集計。 有斐閣「統計学」2章SECTION5では分割表として紹介されています。 用意するデータ 上記教科書の表2-6を参照します。 性別と禁煙するか否かのデータです。 教科書では喫煙は〇×ですが、ここでは1=喫煙, 0=喫煙しない…

【統計学】散布図(R)

2変数データの確認方法についてです。 今回も例によって有斐閣「統計学」を参考にしています。 今回は2章SECTION5の「散布図」です。 データの確認 今回は上記書籍のP60にあるJリーグの試合結果のデータを使用します。 誰かの趣味でしょうか笑 wins <- c(22…

【統計学】ヒストグラム(Python)

前回作成した度数分布表をもとにヒストグラムを書いてみます。 import pandas as pd import matplotlib.pyplot as plt #データ読込 data = pd.Series([ 154,196,190,28,122,78,150,99,72,117, 73,195,3,62,190,125,7,63,182,56, 7,29,56,104,154,12,117,63,9…

【統計学】度数分布表をつくる(Python編)

前回はRで度数分布表とヒストグラムを実装しましたが、 今回はPythonで度数分布表を実装します。 上の書籍の第1章SECTION5に該当。 Pythonでの実装は、検索では度数分布表の関数が見つからなかったので自分で作ってみました。 とはいえ関数化はできていませ…

【統計学】度数分布表とヒストグラム(R)

Rで度数分布表とヒストグラムを実装します。 上の書籍の第1章SECTION5に該当。 この記事ではRで実装する。 データを確認する データは0から200までの数字をランダムで100個発生させた下のようなものを使用します。 154,196,190,28,122,78,150,99,72,117, 73,…

【統計学】代表値(RとPython)

有斐閣の「統計学」をもとに統計学を復習中。 今回は代表値の実装。上記書籍の第1章SECTION1に該当。 代表値 平均 中央値(メジアン) 観測値を大小に並べ、真ん中に位置する数。 最頻値(モード) 観測値の中でもっとも頻繁に表れた数。 Rで実装 x <- c(0,…