数据的偏度和峰度

Posted z1141000271

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据的偏度和峰度相关的知识,希望对你有一定的参考价值。

我们一般会拿偏度和峰度来看数据的分布形态,而且一般会跟正态分布做比较,我们把正态分布的偏度和峰度都看做零。如果我们在实操中,算到偏度峰度不为0,即表明变量存在左偏右偏,或者是高顶平顶这么一说。

偏度

偏度是数据的不对称程度。无论偏度值是 0、正数还是负数,都显示有关数据分布形状的信息。
技术图片
技术图片    技术图片
图 A                    图 B 
对称或非偏斜分布

当数据变得更加对称时,它的偏度值会更接近零。图 A 显示正态分布的数据,顾名思义,正态分布数据的偏度相对较小。通过沿这一正态数据直方图的中间绘制一条线,可以很容易地看到两侧互相构成镜像。但是,没有偏度并不表示具有正态性。在图 B 显示的分布中,两侧依然互相构成镜像,但这些数据完全不是正态分布。

 

技术图片

技术图片
正偏斜或向右偏斜分布

正偏斜或右偏斜的数据之所以这样命名,是因为分布的“尾部”指向右侧(如上图所示),而且它的偏度值大于 0(或为正数)。薪金数据通常按这种方式偏斜:一家公司中许多员工的薪金相对较低,而少数人员的薪金则非常高。

 

技术图片 

技术图片
负偏斜或向左偏斜分布

左偏斜或负偏斜的数据之所以这样命名,是因为分布的“尾部”指向左侧(如上图所示),而且它产生负数偏度值。故障率数据通常就是左偏斜的。以灯泡为例:极少数灯泡会立即就烧坏,但大部分灯泡都会持续相当长的时间。

峰度

峰度表示分布的尾部与正态分布的区别。使用峰度可帮助您初步了解有关数据分布的一般特征。技术图片
技术图片

完全服从正态分布的数据的峰度值为 0。正态分布的数据为峰度建立了基准。如果样本的峰度值显著偏离 0,则表明数据不服从正态分布。

技术图片 

技术图片
正峰度

具有正峰度值的分布表明,相比于正态分布,该分布有更重的尾部(更加尖锐,如上图虚线所示)。例如,服从 t 分布的数据具有正峰度值。实线表示正态分布,虚线表示具有正峰度值的分布。

 

技术图片

 

 

技术图片
负峰度

具有负峰度值的分布表明,相比于正态分布,该分布有更轻的尾部(更加平滑,如上图虚线所示)。例如,服从 Beta 分布(第一个和第二个分布形状参数等于 2)的数据具有负峰度值。实线表示正态分布,虚线表示具有负峰度值的分布。

 
在padas里面,df.skew()用来计算偏度、df.kurt()用来计算峰度。

以上是关于数据的偏度和峰度的主要内容,如果未能解决你的问题,请参考以下文章

R语言使用moments包计算偏度(Skewness)和峰度(Kurtosis)实战:计算偏度(Skewness)和峰度(Kurtosis)确定样本数据是否具有与正态分布匹配的偏度和峰度(假设检验)

应用统计学分布的偏度和峰度

应用统计学分布的偏度和峰度

应用统计学分布的偏度和峰度

绘制清晰的图表以显示偏度和峰度

在 stargazer 中计算偏度和峰度