【統計学】四分位数と基本統計量(RとPython)
四分位数や基本統計量はデータの概況や分布の形を伺える重要な指標です。
Rで実装
よく利用するものをまとめました。「まずsummary()でデータを把握する」というくらいsummary()はよく使います。
x <- c(0, 1 ,1, 2, 2 ,3 ,3 ,3, 4, 5, 6, 7, 8, 9) #基本統計量 summary(x) # Min. 1st Qu. Median Mean 3rd Qu. Max. # 0.000 2.000 3.000 3.857 5.750 9.000 #最小値、第一四分位数(25%点)、中央値、 #平均、第三四分位数(75%点)、最大値が出力される #最小値 min(x) #[1] 0 #最大値 max(x) #[1] 9 #総和 sum(x) #[1] 54 #データの個数 length(x) #[1] 14
Pythonで実装
describe()は、Rのsummary()よりも多くの情報を出力してくれるので、とっても便利です。
import pandas as pd x = pd.Series([0, 1 ,1, 2, 2 ,3 ,3 ,3, 4, 5, 6, 7, 8, 9]) #要約統計量 x.describe() #Out[5]: #count 14.000000 #mean 3.857143 #std 2.769536 #min 0.000000 #25% 2.000000 #50% 3.000000 #75% 5.750000 #max 9.000000 #dtype: float64 #データの個数、平均、標準偏差、 #最小値、第一四分位数(25%点)、中央値、 #第三四分位数(75%点)、最大値が出力 #最小値 min(x) #Out[9]: 0 #最大値 max(x) #Out[10]: 9 #総和 sum(x) #Out[6]: 54 #データの個数 len(x) #Out[7]: 14