いっかくのデータサイエンティストをいく

1からプログラミングとデータサイエンスを独習したい

【統計学】四分位数と基本統計量(RとPython)

四分位数や基本統計量はデータの概況や分布の形を伺える重要な指標です。

Rで実装

よく利用するものをまとめました。「まずsummary()でデータを把握する」というくらいsummary()はよく使います。

x <- c(0, 1 ,1, 2, 2 ,3 ,3 ,3, 4, 5, 6, 7, 8, 9)

#基本統計量
summary(x) 
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#  0.000   2.000   3.000   3.857   5.750   9.000 
#最小値、第一四分位数(25%点)、中央値、
#平均、第三四分位数(75%点)、最大値が出力される

#最小値
min(x)
#[1] 0

#最大値
max(x)
#[1] 9

#総和
sum(x)
#[1] 54

#データの個数
length(x)
#[1] 14

Pythonで実装

describe()は、Rのsummary()よりも多くの情報を出力してくれるので、とっても便利です。

import pandas as pd
x = pd.Series([0, 1 ,1, 2, 2 ,3 ,3 ,3, 4, 5, 6, 7, 8, 9])

#要約統計量
x.describe()
#Out[5]: 
#count    14.000000
#mean      3.857143
#std       2.769536
#min       0.000000
#25%       2.000000
#50%       3.000000
#75%       5.750000
#max       9.000000
#dtype: float64
#データの個数、平均、標準偏差、
#最小値、第一四分位数(25%点)、中央値、
#第三四分位数(75%点)、最大値が出力

#最小値
min(x)
#Out[9]: 0

#最大値
max(x)
#Out[10]: 9

#総和
sum(x)
#Out[6]: 54

#データの個数
len(x)
#Out[7]: 14