【統計学】散布図（Python） - いっかくのデータサイエンティストをいく

今回は有斐閣「統計学」2章SECTION５の「散布図」のPython編です。

データの確認

前回同様、上記書籍のP60にあるJリーグの試合結果のデータを使用します。

import pandas as pd
df = pd.DataFrame({ 
                   'wins':[22, 20, 20, 18, 17, 18, 13, 13, 13, 13, 13, 13, 13, 12, 12, 5, 6, 4],
                   'score':[67, 84, 80, 60, 68, 62, 51, 47, 49, 50, 57, 43, 56, 46, 42, 32, 44, 38],
                   'lost':[28, 55, 48, 41, 51, 53, 49, 45, 43, 56, 58, 55, 65, 65, 64, 56, 70, 74]
                   })

matplotlibで描写

Pythonはではmatplotlibで書けます。なお、matplotlibは日本語文字化けするため、設定が必要です。設定方法はこちら。

https://datumstudio.jp/blog/matplotlib%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E6%96%87%E5%AD%97%E5%8C%96%E3%81%91%E3%82%92%E8%A7%A3%E6%B6%88%E3%81%99%E3%82%8Bwindows%E7%B7%A8

import matplotlib.pyplot as plt

plt.scatter(df['wins'], df['score'])

plt.title("勝数 vs 得点")
plt.xlabel("勝数")
plt.ylabel("得点")

plt.show()

f:id:imakoto0323:20180610085235p:plain