数据的偏度和峰度——df.skew()df.kurt()
Posted 风信子的猫Redamancy
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据的偏度和峰度——df.skew()df.kurt()相关的知识,希望对你有一定的参考价值。
数据的偏度和峰度——df.skew()、df.kurt()
我们一般会拿偏度和峰度来看数据的分布形态,而且一般会跟正态分布做比较,我们把正态分布的偏度和峰度都看做零。如果我们在实操中,算到偏度峰度不为0,即表明变量存在左偏右偏,或者是高顶平顶这么一说。
一.偏度(Skewness)
Definition:是描述数据分布形态的统计量,其描述的是某总体取值分布的对称性,简单来说就是数据的不对称程度。。
偏度是三阶中心距计算出来的。
(1)Skewness = 0 ,分布形态与正态分布偏度相同。
(2)Skewness > 0 ,正偏差数值较大,为正偏或右偏。长尾巴拖在右边,数据右端有较多的极端值。
(3)Skewness < 0 ,负偏差数值较大,为负偏或左偏。长尾巴拖在左边,数据左端有较多的极端值。
(4)数值的绝对值越大,表明数据分布越不对称,偏斜程度大。
计算公式:
S
k
e
w
n
e
s
s
=
E
[
(
(
x
−
E
(
x
)
)
/
(
D
(
x
)
)
)
3
]
Skewness=E[((x-E(x))/(\\sqrt{D(x)}))^3]
Skewness=E[((x−E(x))/(D(x)))3]
∣
S
k
e
w
n
e
s
s
∣
| Skewness|
∣Skewness∣ 越大,分布形态偏移程度越大。
二.峰度(Kurtosis)
Definition:偏度是描述某变量所有取值分布形态陡缓程度的统计量,简单来说就是数据分布顶的尖锐程度。
峰度是四阶标准矩计算出来的。
(1)Kurtosis=0 与正态分布的陡缓程度相同。
(2)Kurtosis>0 比正态分布的高峰更加陡峭——尖顶峰
(3)Kurtosis<0 比正态分布的高峰来得平台——平顶峰
计算公式:
K
u
r
t
o
s
i
s
=
E
[
(
(
x
−
E
(
x
)
)
/
(
(
D
(
x
)
)
)
)
4
]
−
3
Kurtosis=E[ ( (x-E(x))/ (\\sqrt(D(x))) )^4 ]-3
Kurtosis=E[((x−E(x))/((D(x))))4]−3
以上是关于数据的偏度和峰度——df.skew()df.kurt()的主要内容,如果未能解决你的问题,请参考以下文章
R语言使用moments包计算偏度(Skewness)和峰度(Kurtosis)实战:计算偏度(Skewness)和峰度(Kurtosis)确定样本数据是否具有与正态分布匹配的偏度和峰度(假设检验)