いっかくのデータサイエンティストをいく

1からプログラミングとデータサイエンスを独習したい

ビジュアライズ

【備忘録】エラーバーの表示

2か月ぶりの更新です。 お久しぶりになってしまい申し訳ありません。 いろいろあったので。。。 今回は仕事で使う機会あありました「エラーバーの表示」です。 参考はこちら tips-r.blogspot.com gplotsパッケージのplotmeans関数を使います。 #データ x gro…

【ビジュアライズ】matplotlibとseabornの文字化けを修正する

AnnacondaやPythonをインストールするたびやらなきゃならない面倒な設定。 やり方をまとめました。といいましてもリンクを張っただけですが。 設定しないと 上の表のように四角(通称豆腐)になってしまいます。 matplotllibの設定 kaisk.hatenadiary.com こ…

【統計学】回帰分析と最小二乗法(Python)

今回はPythonで単回帰分析です。調べてみるといろいろやり方があるようです。 データはおなじみの上記書籍のP60にあるJリーグの試合結果のデータを使用します。 statsmodelで単回帰分析 こちらは回帰分析の結果の要約が出ます。 wcs.hatenablog.com import p…

【統計学】回帰分析と最小二乗法(R)

3回にわたって解説してきました回帰分析をRで実装してみたと思います。 有斐閣「統計学」3章です。 Rで実装 Rではlm関数で回帰分析を行えます。lm関数を適当な変数に入れ、入れた変数をsummary()に入れると詳しい結果がでます。 #データ:教科書P60 Jリーグ…

【統計学】散布図(R)

2変数データの確認方法についてです。 今回も例によって有斐閣「統計学」を参考にしています。 今回は2章SECTION5の「散布図」です。 データの確認 今回は上記書籍のP60にあるJリーグの試合結果のデータを使用します。 誰かの趣味でしょうか笑 wins <- c(22…

【統計学】散布図(Python)

今回は有斐閣「統計学」2章SECTION5の「散布図」のPython編です。 データの確認 前回同様、上記書籍のP60にあるJリーグの試合結果のデータを使用します。 import pandas as pd df = pd.DataFrame({ 'wins':[22, 20, 20, 18, 17, 18, 13, 13, 13, 13, 13, 13…

【統計学】ヒストグラム(Python)

前回作成した度数分布表をもとにヒストグラムを書いてみます。 import pandas as pd import matplotlib.pyplot as plt #データ読込 data = pd.Series([ 154,196,190,28,122,78,150,99,72,117, 73,195,3,62,190,125,7,63,182,56, 7,29,56,104,154,12,117,63,9…

【統計学】度数分布表とヒストグラム(R)

Rで度数分布表とヒストグラムを実装します。 上の書籍の第1章SECTION5に該当。 この記事ではRで実装する。 データを確認する データは0から200までの数字をランダムで100個発生させた下のようなものを使用します。 154,196,190,28,122,78,150,99,72,117, 73,…