いっかくのデータサイエンティストをいく

1からプログラミングとデータサイエンスを独習したい

前処理

【統計学】分割表(クロス集計)(R)

2変数データの確認の王道、クロス集計。 有斐閣「統計学」2章SECTION5では分割表として紹介されています。 用意するデータ 上記教科書の表2-6を参照します。 性別と禁煙するか否かのデータです。 教科書では喫煙は〇×ですが、ここでは1=喫煙, 0=喫煙しない…

【自然言語処理】文字列の検索(Python)

文字列の検索は、データが日本語で入っている(男女など)場合もあるので使う機会が多いと思います。 一通りまとめてみました。 ''' 文字列の検索(完全一致) 普通に==で可能 ''' a = '静岡県' b = '静岡県' c = '福岡県' a == b #Out[20]: True a == c Out[…

【自然言語処理】文字列の削除・置換(Python)

Pythonで文字列の一部を置き換えたり(置換)、削除を行う方法をまとめました。 ''' 特定の文字を削除する →空文字に置換 ''' test = '大阪府' test.replace('府', '') #Out[1]: '大阪' ''' 先頭・末尾から〇文字削除する ''' test = '東京都葛飾区柴又' tes…

【自然言語処理】文字列の分割・結合(Python)

最近、自然言語処理を行う機会が増え、文字を操作する機会が増えました。 Tipsとして文字列の分割と結合をまとめました。 ''' 文字列を1文字ずつ分割 →リストに格納 ''' test = '鹿児島県' list(test) #Out[1]: ['鹿', '児', '島', '県'] ''' 文字列を特定の…