いっかくのデータサイエンティストをいく

1からプログラミングとデータサイエンスを独習したい

2018-06-08から1日間の記事一覧

【統計学】ヒストグラム(Python)

前回作成した度数分布表をもとにヒストグラムを書いてみます。 import pandas as pd import matplotlib.pyplot as plt #データ読込 data = pd.Series([ 154,196,190,28,122,78,150,99,72,117, 73,195,3,62,190,125,7,63,182,56, 7,29,56,104,154,12,117,63,9…

【統計学】度数分布表をつくる(Python編)

前回はRで度数分布表とヒストグラムを実装しましたが、 今回はPythonで度数分布表を実装します。 上の書籍の第1章SECTION5に該当。 Pythonでの実装は、検索では度数分布表の関数が見つからなかったので自分で作ってみました。 とはいえ関数化はできていませ…

【統計学】度数分布表とヒストグラム(R)

Rで度数分布表とヒストグラムを実装します。 上の書籍の第1章SECTION5に該当。 この記事ではRで実装する。 データを確認する データは0から200までの数字をランダムで100個発生させた下のようなものを使用します。 154,196,190,28,122,78,150,99,72,117, 73,…

【自然言語処理】文字列の検索(Python)

文字列の検索は、データが日本語で入っている(男女など)場合もあるので使う機会が多いと思います。 一通りまとめてみました。 ''' 文字列の検索(完全一致) 普通に==で可能 ''' a = '静岡県' b = '静岡県' c = '福岡県' a == b #Out[20]: True a == c Out[…

【自然言語処理】文字列の削除・置換(Python)

Pythonで文字列の一部を置き換えたり(置換)、削除を行う方法をまとめました。 ''' 特定の文字を削除する →空文字に置換 ''' test = '大阪府' test.replace('府', '') #Out[1]: '大阪' ''' 先頭・末尾から〇文字削除する ''' test = '東京都葛飾区柴又' tes…

【自然言語処理】文字列の分割・結合(Python)

最近、自然言語処理を行う機会が増え、文字を操作する機会が増えました。 Tipsとして文字列の分割と結合をまとめました。 ''' 文字列を1文字ずつ分割 →リストに格納 ''' test = '鹿児島県' list(test) #Out[1]: ['鹿', '児', '島', '県'] ''' 文字列を特定の…

【統計学】分散・歪度・尖度(R・Python)

有斐閣の「統計学」をもとに統計学を復習中。 今回は分散・歪度・尖度の実装。上記書籍の第1章SECTION2・3に該当。 分散・歪度・尖度 分散 データの広がり具合を示す。 標準偏差 分散の平方根。分散は2乗しているので、平方根をとることでもとのデータと単位…

【統計学】四分位数と基本統計量(RとPython)

四分位数や基本統計量はデータの概況や分布の形を伺える重要な指標です。 Rで実装 よく利用するものをまとめました。「まずsummary()でデータを把握する」というくらいsummary()はよく使います。 x <- c(0, 1 ,1, 2, 2 ,3 ,3 ,3, 4, 5, 6, 7, 8, 9) #基本統…