いっかくのデータサイエンティストをいく

1からプログラミングとデータサイエンスを独習したい

【統計学】代表値(RとPython)

有斐閣の「統計学」をもとに統計学を復習中。

今回は代表値の実装。上記書籍の第1章SECTION1に該当。

代表値

  • 平均 \displaystyle \bar{x} = \frac{1}{n}\sum_{i=1}^{n}   { x_i }
  • 中央値(メジアン) 観測値を大小に並べ、真ん中に位置する数。
  • 最頻値(モード) 観測値の中でもっとも頻繁に表れた数。

Rで実装

x <- c(0, 1 ,1, 2, 2 ,3 ,3 ,3, 4, 5, 6, 7, 8, 9)
#平均
mean(x)
#[1] 3.857143
#中央値
median(x)
#[1] 3
#最頻値(直接求める関数がない)
x_frequency <- table(x) #出現回数を求める
#x
#0 1 2 3 4 5 6 7 8 9 
#1 2 2 3 1 1 1 1 1 1 
max(x_frequency)#↑の最大値を求める
#[1] 3

Pythonで実装

import statistics
x = [0, 1 ,1, 2, 2 ,3 ,3 ,3, 4, 5, 6, 7, 8, 9]

#平均
mean = statistics.mean(x)
#中央値
median = statistics.median(x)
#最頻値
mode = statistics.mode(x)

#表示
print('平均: {0:.2f}'.format(mean))
print('中央値: {0:.2f}'.format(median))
print('最頻値: {0:.2f}'.format(mode))
#平均: 3.86
#中央値: 3.00
#最頻値: 3.00