いっかくのデータサイエンティストをいく

1からプログラミングとデータサイエンスを独習したい

2018-06-01から1ヶ月間の記事一覧

【統計学】仮説検定

統計学をやっていると避けては通れない仮説検定。私は楽しいと面白いと思ったのですが、皆さんはいかがですか? 例のごとく有斐閣「統計学」第10章SECTION1の解説です。 仮説検定とは 仮説検定とは、ある仮説が正しいか、統計学的に検証しようというものです…

【統計学】母集団既知の平均の検定(RとPython)

教科書第10章になります。 母平均に関する検定です。母平均が既知で、標本平均が母集団の平均と重なるかどうか検定します。 Rで実装 t.testで簡単にできます。 詳しいパラメータはこちら。 データ解析・マイニングとR言語 今回は教科書P320 の例題10.1(1)(2)…

【統計学】尤度関数(RとPython)

教科書有斐閣「統計学」第9章SECTION4の内容です。 尤度関数。正直苦手です。 ですので間違えている可能性も大なので炎上マーケ大歓迎です。 最尤推定法とは 自分で説明するよりも下のサイトのほうがはるかにわかりやすいです。 mathtrain.jp 下の実装もこ…

【統計学】区間推定(RとPython)

下の教科書第9章に当たります。 区間推定とは 国勢調査など一部を除き、ふつうはアンケートや視聴率など母集団のうちの一部から母数を推定します。しかしサンプルサイズが十分でない場合、推定量が偏っている場合もあります。そこで、真の母数の入っていそう…

【備忘録】UUIDの生成(Python)

import uuid u1 = str(uuid.uuid1()) print(u1) #37de9874-752d-11e8-a593-7429af968fd6 u4 = str(uuid.uuid4()) print(u4) #0334dc23-e25b-4938-8968-e78965b9047f uuid2,uuid3はできないみたい。

【統計学】母集団と標本

よく間違える母集団と標本。有斐閣「統計学」第8章です。 母集団と標本 ある調査を行うとするとき、 * 母集団:調査対象全体のこと 標本:実際に調査する観測対象のこと であります。たとえばある化粧品の利用者へアンケートを実施した際、ある化粧品の利用…

【統計学】大数の法則と中心極限定理

今回は統計学をやっていると避けては通れない大数の法則の解説とPythonでシミュレーションをしてみました。 教科書第8章SECTION3です。 大数の法則 統計だけでなく金融・政治・社会・経済を語るうえで、大数の法則は欠かすことができません。選挙速報も保険…

【統計学】正規分布

正規分布も様々なところで議論されている。 もちろん有斐閣「統計学」でも でもこちらのほうがわかりやすい気がします。 atarimae.biz 数式で書くとこうなります。 でも図で見るとわかりやすいですね。 正規分布の応用例としては偏差値があります。 なるほど…

【統計学】いろいろな分布

有斐閣「統計学」第7章をまとめようと思ったのですが。。。 qiita.com このブログで十分やん。これ以上特にないし。ということでビジュアライズはこのサイトにお任せして。 簡単な概要だけ書きます。今回は数式は教科書に任せます。 二項分布 結果が2種類し…

【統計学】順列と組み合わせ(RとPython)

高校数学Aでおなじみの場合の数。下記教科書では5章に簡単に説明されています。 Rで実装 #階乗 #5! factorial(5) #[1] 120 #順列 #8個から3つ並べる方法 n <- 8 r <- 3 prod((n-r+1):n) #[1] 336 #3つのものを並べる方法一覧 #install.packages("e1071") lib…

【備忘録】継承(Python)

今回はこの本のP149~P157 をもとに書いています。 継承とは 継承とは、あるクラスAからクラスBへクラスAで定義した変数やメソッド(def ~のやつ)を受け継がせることです。 継承元を親クラス、継承先を子クラスといいます。AとBには「この2つには親子関係が…

【備忘録】class<クラス>(Python)

今回はこの本のP136~P157 をもとに書いています。この本の説明がいちばんやさしく、私はこの本しかわかりませんでした。 クラスとは 端的に言うと「データの設計図」といえます。「データの設計図」にはデータがどのようなパラメータを持つか、そしてどのよ…

【統計学】ベイズの公式

ベイズ統計学でおなじみのベイズの公式。 ちょうど教科書にも載っていたので復習としてまとめてみました。 ただ、私はこの分野があまり強くないので間違いがあればドンドン指摘いただけると幸いです。 条件付き確率 教科書的には事象Aが生じたもとで事象Bが…

【統計学】回帰分析と最小二乗法(Python)

今回はPythonで単回帰分析です。調べてみるといろいろやり方があるようです。 データはおなじみの上記書籍のP60にあるJリーグの試合結果のデータを使用します。 statsmodelで単回帰分析 こちらは回帰分析の結果の要約が出ます。 wcs.hatenablog.com import p…

【統計学】回帰分析と最小二乗法(理論編その3)

前回、前々回と回帰分析の理論とくに回帰係数の求め方について説明しました。 今回は実際に回帰分析を行う際に特に注目する指標を簡単に説明します。 決定係数 求めた回帰式が実際の観測値どれくらい説明できたか示す指標です。 決定係数は0から1の間の値を…

【統計学】回帰分析と最小二乗法(R)

3回にわたって解説してきました回帰分析をRで実装してみたと思います。 有斐閣「統計学」3章です。 Rで実装 Rではlm関数で回帰分析を行えます。lm関数を適当な変数に入れ、入れた変数をsummary()に入れると詳しい結果がでます。 #データ:教科書P60 Jリーグ…

【統計学】回帰分析と最小二乗法(理論編その2)

前回の続きです。今回は実際に残差平方和を最小にして傾きを求めます。 残差を最小にする 前回の復習で、残差平方和は以下のようになりました。 こちらを最小となるようにbを求めます。なお、残差二乗和を最小とするので、最小二乗法といいます。 正規方程式…

【統計学】回帰分析と最小二乗法(理論編その1)

2変数間の関係を分析する代表的な手法に単回帰分析があります。今回はその理論を考えてみたいと思います。 私は統計学の面白さにこの単回帰分析からはまったといっても過言ではないくらいです。 なお、今回は微分やらΣやらがいっぱい出てきます。読みたくな…

【統計学】相関係数(Python)

前回解説いたしました相関係数を今度はPythonで実装してみたいと思います。 共分散 データ 散布図でも使用しました上記書籍のP60にあるJリーグの試合結果のデータを使用します。 #勝数 wins = [22, 20, 20, 18, 17, 18, 13, 13, 13, 13, 13, 13, 13, 12, 12,…

【統計学】相関係数(R)

前回解説いたしました相関係数をRで実装してみたいと思います。 共分散 データ 散布図でも使用しました上記書籍のP60にあるJリーグの試合結果のデータを使用します。 #勝数 wins <- c(22, 20, 20, 18, 17, 18, 13, 13, 13, 13, 13, 13, 13, 12, 12, 5, 6, 4)…

【統計学】相関係数(理論編)

有斐閣「統計学」2章SECTION5では共分散と3つの相関係数が紹介されています。 共分散 2変数間の散らばり具合を表します。ここでいう「散らばり」とは「散布図で点の散らばりが直線的になるか」ということです。 直線的であれば散らばりは小さく、逆に円形な…

【経済学】ローレンツ曲線とジニ係数(Python)

前々回のローレンツ曲線とジニ係数をPythonで実装します。 前回の関数をもとにPythonでも関数を実装してみました。 import numpy as np import matplotlib.pyplot as plt #関数 def Gini_index(data, main, xlab, ylab): print(data) n = len(data) #dataの…

【経済学】ローレンツ曲線とジニ係数(R)

前回のローレンツ曲線とジニ係数をRで実装します。 今回は下のリンクからRスクリプトを拝借しました。 Rメモ Rで実装 # Gini.index関数を作るためのソース(ローレンツ曲線を描き,ジニ係数を計算する) Gini.index <- function( y, # 度数ベクトル main="", #…

【経済学】ローレンツ曲線とジニ係数(理論編)

有斐閣「統計学」は経済学系の書籍なので、経済学の計算が登場します。今回はローレンツ曲線とジニ係数を考えます。 出典は有斐閣「統計学」第1章SECTION6です。 ローレンツ曲線 ローレンツ曲線:所得、人口、販売高などの一定のグループへの集中の度合いを…

【統計学】分割表(クロス集計)(Python)

前回に引き続き、クロス集計。 有斐閣「統計学」2章SECTION5では分割表として紹介されています。 用意するデータ 前回同様上記教科書の表2-6を参照します。 性別と禁煙するか否かのデータです。 教科書では喫煙は〇×ですが、ここでは1=喫煙, 0=喫煙しないと…

【統計学】分割表(クロス集計)(R)

2変数データの確認の王道、クロス集計。 有斐閣「統計学」2章SECTION5では分割表として紹介されています。 用意するデータ 上記教科書の表2-6を参照します。 性別と禁煙するか否かのデータです。 教科書では喫煙は〇×ですが、ここでは1=喫煙, 0=喫煙しない…

【統計学】散布図(R)

2変数データの確認方法についてです。 今回も例によって有斐閣「統計学」を参考にしています。 今回は2章SECTION5の「散布図」です。 データの確認 今回は上記書籍のP60にあるJリーグの試合結果のデータを使用します。 誰かの趣味でしょうか笑 wins <- c(22…

【統計学】散布図(Python)

今回は有斐閣「統計学」2章SECTION5の「散布図」のPython編です。 データの確認 前回同様、上記書籍のP60にあるJリーグの試合結果のデータを使用します。 import pandas as pd df = pd.DataFrame({ 'wins':[22, 20, 20, 18, 17, 18, 13, 13, 13, 13, 13, 13…

【備忘録】データの形式を変換する(Python)

データフレームをリストにしたり、リストをシリーズにしたり、解析をしているとデータの形式を変換するばめんによく遭遇するのでまとめてみました。 import numpy as np import pandas as pd ''' (配列)リストから変換する ''' #データ df_list = [1, 2, 3…

【統計学】ヒストグラム(Python)

前回作成した度数分布表をもとにヒストグラムを書いてみます。 import pandas as pd import matplotlib.pyplot as plt #データ読込 data = pd.Series([ 154,196,190,28,122,78,150,99,72,117, 73,195,3,62,190,125,7,63,182,56, 7,29,56,104,154,12,117,63,9…