5-Pandas之常用的描述性统计函数汇总函数

Posted cheryol

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了5-Pandas之常用的描述性统计函数汇总函数相关的知识,希望对你有一定的参考价值。

一、常用的描述性统计函数 
函数 作用 函数 作用
count 非缺失样本的数量 sum 求和
mean 均值 mad 平均绝对偏差(Mean absolute deviation)
median 中位数 min 最小值
max 最大值 mode 众数
abs 绝对值 prod 乘积
std 标准差 var 无偏方差
sem 平均标准误差 skew 偏度(三阶矩)
kurt 峰度(四阶矩) quantile 分位数
cumsum 累计求和 cumprod 累积
cummax 累计最大值 cummin 累积最小值

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

二、汇总函数 

(1)describe():查看各个特征的均值、标准差、最小值、最大值即分位数,对样本数据量进行统计,默认仅对数值型数据进行统计,也可通过上一节数据筛选中所说的include和exclude来设定包括或是剔除哪些类型的特征

  例如:>>>df.describe(include=[‘object‘])

  需要注意的是:describe()也可以对非数值型数据进行统计,只是统计指标不同而已

  例如:

>>>df[‘grade‘].describe()
count 68
unique 6
top  B
freq 18
Name:grade,dtype:object

(2)info():显示各个特征数据类型、非空值数量、总体样本量、占用的内存空间

  >>>df.info()

(3)cov():协方差,描述各个特征之间的相关关系

  >>>df.cov()

  即:若有n个特征,将生成一个n*n的矩阵

  需要注意的是:协方差的绝对值不反应线性相关的程度

(4)corr():相关系数。表示线性相关的方向和相关程度,其值域为[-1,1]

  >>>df.corr()

 

以上是关于5-Pandas之常用的描述性统计函数汇总函数的主要内容,如果未能解决你的问题,请参考以下文章

超全的 100 个 Pandas 函数汇总,建议收藏

超全的 100 个 Pandas 函数汇总,建议收藏

超全的 100 个 Pandas 函数汇总,建议收藏

Excel五个常用的“IFS”结尾的多条件统计函数

如何根据使用 dplyr 的组上的聚合函数计算新列(在汇总统计信息上添加汇总统计信息)?

全栈数据之Hive中常用统计分析函数