以下文章来源于尤而小屋 ,作者尤而小屋
最近整理了pandas中20个常用统计函数和用法,建议收藏学习~
模拟数据
为了解释每个函数的使用,模拟了一份带有空值的数据:
代码语言:javascript复制import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
df = pd.DataFrame({
"sex":["male","male","female","female","male"],
"age":[22,24,25,26,24],
"chinese":[100,120,110,100,90],
"math":[90,np.nan,100,80,120], # 存在空值
"english":[90,130,90,80,100]})
df
描述统计信息describe
descirbe方法只能针对序列或数据框,一维数组是没有这个方法的;同时默认只能针对数值型的数据进行统计:
代码语言:javascript复制DataFrame.describe(percentiles=None,include=None,exclude=None)
- percentiles:可选折的百分数,列表形式;数值在0-1之间,默认是[.25,.5,.75]
- include/exclude:包含和排除的数据类型信息
返回的信息包含:
- 非空值的数量count;特例:math字段中有一个空值
- 均值mean
- 标准差std
- 最小值min
- 最大值max
- 25%、50%、75%分位数
df.describe()
添加了参数后的情况,我们发现:
- sex字段的相关信息也被显示出来
- 显示的信息更丰富,多了unique、top、freq等等
非空值数量count
返回的是每个字段中非空值的数量
In [5]:
代码语言:javascript复制df.count()
Out[5]:
代码语言:javascript复制sex 5
age 5
chinese 5
math 4 # 包含一个空值
english 5
dtype: int64
求和sum
In [6]:
代码语言:javascript复制df.sum()
在这里我们发现:如果字段是object类型的,sum函数的结果就是直接将全部取值拼接起来
Out[6]:
代码语言:javascript复制sex malemalefemalefemalemale # 拼接
age 121 # 相加求和
chinese 520
math 390.0
english 490
dtype: object
最大值max
In [7]:
代码语言:javascript复制df.max()
针对字符串的最值(最大值或者最小值),是根据字母的ASCII码大小来进行比较的:
- 先比较首字母的大小
- 首字母相同的话,再比较第二个字母
Out[7]:
代码语言:javascript复制sex male
age 26
chinese 120
math 120.0
english 130
dtype: object
最小值min
和max函数的求解是类似的:
In [8]:
代码语言:javascript复制df.min()
Out[8]:
代码语言:javascript复制sex female
age 22
chinese 90
math 80.0
english 80
dtype: object
分位数quantile
返回指定位置的分位数
In [9]:
代码语言:javascript复制df.quantile(0.2)
Out[9]:
代码语言:javascript复制age 23.6
chinese 98.0
math 86.0
english 88.0
Name: 0.2, dtype: float64
In [10]:
代码语言:javascript复制df.quantile(0.25)
Out[10]:
代码语言:javascript复制age 24.0
chinese 100.0
math 87.5
english 90.0
Name: 0.25, dtype: float64
In [11]:
代码语言:javascript复制df.quantile(0.75)
Out[11]:
代码语言:javascript复制age 25.0
chinese 110.0
math 105.0
english 100.0
Name: 0.75, dtype: float64
通过箱型图可以展示一组数据的25%、50%、75%的中位数:
In [12]:
代码语言:javascript复制plt.figure(figsize=(12,6))#设置画布的尺寸
plt.boxplot([df["age"],df["chinese"],df["english"]],
labels = ["age","chinese","english"],
# vert=False,
showmeans=True,
patch_artist = True,
boxprops = {'color':'orangered','facecolor':'pink'}
# showgrid=True
)
plt.show()
箱型图的具体展示信息:
均值mean
一组数据的平均值
In [13]:
代码语言:javascript复制df.mean()
Out[13]:
代码语言:javascript复制age 24.2
chinese 104.0
math 97.5
english 98.0
dtype: float64
通过下面的例子我们发现:如果字段中存在缺失值(math存在缺失值),此时样本的个数会自动忽略缺失值的总数
In [14]:
代码语言:javascript复制390/4 # 个数不含空值
Out[14]:
代码语言:javascript复制97.5
中值/中位数median
比如:1,2,3,4,5 的中位数就是3
再比如:1,2,3,4,5,6 的中位数就是 3 4 = 3.5
In [15]:
代码语言:javascript复制df.median()
Out[15]:
代码语言:javascript复制age 24.0
chinese 100.0
math 95.0
english 90.0
dtype: float64
众数mode
一组数据中出现次数最多的数
In [16]:
代码语言:javascript复制df.mode()
Out[16]:
最大值索引idmax
idxmax() 返回的是最大值的索引
In [17]:
代码语言:javascript复制df["age"].idxmax()
Out[17]:
代码语言:javascript复制3
In [18]:
代码语言:javascript复制df["chinese"].idxmin()
Out[18]:
代码语言:javascript复制4
不能字符类型的字段使用该函数,Pandas不支持:
In [19]:
代码语言:javascript复制df["sex"].idxmax()
最小值索引idxmin
返回最小值所在的索引
In [20]:
代码语言:javascript复制df["age"].idxmin()
Out[20]:
代码语言:javascript复制0
In [21]:
代码语言:javascript复制df["math"].idxmin()
Out[21]:
代码语言:javascript复制3
In [22]:
代码语言:javascript复制df["sex"].idxmin()
不能字符类型的字段使用该函数,Pandas不支持:
方差var
计算一组数据的方差,需要注意的是:numpy中的方差叫总体方差,pandas中的方差叫样本方差
标准差(或方差)分为 总体标准差(方差)和 样本标准差(方差)
- 前者分母为n,右偏的;后者分母为n-1,是无偏的
- pandas里是算无偏的;numpy里是有偏的
In [23]:
代码语言:javascript复制df.var()
Out[23]:
代码语言:javascript复制age 2.200000
chinese 130.000000
math 291.666667 # pandas计算结果
english 370.000000
dtype: float64
In [24]:
代码语言:javascript复制df["math"].var()
Out[24]:
代码语言:javascript复制291.6666666666667
In [25]:
代码语言:javascript复制np.var(df["math"]) # numpy计算结果
Out[25]:
代码语言:javascript复制218.75
In [26]:
代码语言:javascript复制np.var(df["age"])
Out[26]:
代码语言:javascript复制1.7600000000000002
In [27]:
代码语言:javascript复制np.var(df["english"])
Out[27]:
代码语言:javascript复制296.0
标准差std
返回的是一组数据的标准差
In [28]:
代码语言:javascript复制df.std()
Out[28]:
代码语言:javascript复制age 1.483240
chinese 11.401754
math 17.078251
english 19.235384
dtype: float64
In [29]:
代码语言:javascript复制np.std(df["math"])
Out[29]:
代码语言:javascript复制14.79019945774904
In [30]:
代码语言:javascript复制np.std(df["english"])
Out[30]:
代码语言:javascript复制17.204650534085253
In [31]:
代码语言:javascript复制np.std(df["age"])
Out[31]:
代码语言:javascript复制1.32664991614216
如何理解pandas和numpy两种方法对方差的求解不同:
平均绝对偏差mad
In [32]:
代码语言:javascript复制df.mad()
Out[32]:
代码语言:javascript复制age 1.04
chinese 8.80
math 12.50
english 13.60
dtype: float64
以字段age为例:
In [33]:
代码语言:javascript复制df["age"].mad()
Out[33]:
代码语言:javascript复制1.0399999999999998
In [34]:
代码语言:javascript复制df["age"].tolist()
Out[34]:
代码语言:javascript复制[22, 24, 25, 26, 24]
In [35]:
代码语言:javascript复制age_mean = df["age"].mean()
age_mean
Out[35]:
代码语言:javascript复制24.2
In [36]:
代码语言:javascript复制(abs(22-age_mean) abs(24-age_mean) abs(25-age_mean)
abs(26-age_mean) abs(24-age_mean)) / 5
Out[36]:
代码语言:javascript复制1.0399999999999998
偏度-skew
介绍峰度和偏度的好文章:https://www.cnblogs.com/wyy1480/p/10474046.html
偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。
偏度(Skewness)亦称偏态、偏态系数,表征概率分布密度曲线相对于平均值不对称程度的特征数。
直观看来就是密度函数曲线尾部的相对长度。定义上偏度是样本的三阶标准化矩:
In [37]:
代码语言:javascript复制df.skew()
Out[37]:
代码语言:javascript复制age -0.551618
chinese 0.404796
math 0.752837
english 1.517474
dtype: float64
In [38]:
代码语言:javascript复制df["age"].skew()
Out[38]:
代码语言:javascript复制-0.5516180692881046
峰度-kurt
返回的是峰度值
In [39]:
代码语言:javascript复制df.kurt()
Out[39]:
代码语言:javascript复制age 0.867769
chinese -0.177515
math 0.342857
english 2.607743
dtype: float64
In [40]:
代码语言:javascript复制df["age"].kurt()
Out[40]:
代码语言:javascript复制0.8677685950413174
In [41]:
代码语言:javascript复制df["math"].kurt()
Out[41]:
代码语言:javascript复制0.3428571428571434
绝对值abs
返回数据的绝对值:
In [45]:
代码语言:javascript复制df["age"].abs()
Out[45]:
代码语言:javascript复制0 22
1 24
2 25
3 26
4 24
Name: age, dtype: int64
如果存在缺失值,绝对值函数求解后仍是NaN:
In [46]:
代码语言:javascript复制df["math"].abs()
Out[46]:
代码语言:javascript复制0 90.0
1 NaN
2 100.0
3 80.0
4 120.0
Name: math, dtype: float64
绝对值函数是针对数值型的字段,不能对字符类型的字段求绝对值:
In [47]:
代码语言:javascript复制# 字符类型的数据报错
df["sex"].abs()
元素乘积prod
In [48]:
代码语言:javascript复制df.prod()
Out[48]:
代码语言:javascript复制age 8.236800e 06
chinese 1.188000e 10
math 8.640000e 07
english 8.424000e 09
dtype: float64
In [49]:
代码语言:javascript复制df["age"].tolist()
Out[49]:
代码语言:javascript复制[22, 24, 25, 26, 24]
In [50]:
代码语言:javascript复制22 * 24 * 25 * 26 * 24
Out[50]:
代码语言:javascript复制8236800
累计求和cumsum
In [51]:
代码语言:javascript复制df.cumsum()
累计乘积cumprod
In [52]:
代码语言:javascript复制df["age"].cumprod()
Out[52]:
代码语言:javascript复制0 22
1 528
2 13200
3 343200
4 8236800
Name: age, dtype: int64
In [53]:
代码语言:javascript复制df["math"].cumprod()
Out[53]:
代码语言:javascript复制0 90.0
1 NaN
2 9000.0
3 720000.0
4 86400000.0
Name: math, dtype: float64
In [54]:
代码语言:javascript复制# 字符类型字段报错
df["sex"].cumprod()
20个统计函数
最后再总结下Pandas中常用来描述统计信息的函数: