数据的偏度和峰度——df.skew()df.kurt()

Posted 2021-12-13 风信子的猫Redamancy

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据的偏度和峰度——df.skew()df.kurt()相关的知识，希望对你有一定的参考价值。

数据的偏度和峰度——df.skew()、df.kurt()

我们一般会拿偏度和峰度来看数据的分布形态，而且一般会跟正态分布做比较，我们把正态分布的偏度和峰度都看做零。如果我们在实操中，算到偏度峰度不为0，即表明变量存在左偏右偏，或者是高顶平顶这么一说。

一.偏度（Skewness）

Definition:是描述数据分布形态的统计量，其描述的是某总体取值分布的对称性，简单来说就是数据的不对称程度。。
偏度是三阶中心距计算出来的。
（1）Skewness = 0 ，分布形态与正态分布偏度相同。
（2）Skewness > 0 ，正偏差数值较大，为正偏或右偏。长尾巴拖在右边，数据右端有较多的极端值。
（3）Skewness < 0 ，负偏差数值较大，为负偏或左偏。长尾巴拖在左边，数据左端有较多的极端值。
（4）数值的绝对值越大，表明数据分布越不对称，偏斜程度大。
计算公式：
$Skewness=E[((x-E(x))/(\\sqrt{D(x)}))^3]$
$∣ S k e w n e s s ∣$ 越大，分布形态偏移程度越大。

二.峰度（Kurtosis）

Definition:偏度是描述某变量所有取值分布形态陡缓程度的统计量，简单来说就是数据分布顶的尖锐程度。
峰度是四阶标准矩计算出来的。
（1）Kurtosis=0 与正态分布的陡缓程度相同。
（2）Kurtosis>0 比正态分布的高峰更加陡峭——尖顶峰
（3）Kurtosis<0 比正态分布的高峰来得平台——平顶峰
计算公式：
$(\\sqrt(D(x))) )^4 ]-3$

以上是关于数据的偏度和峰度——df.skew()df.kurt()的主要内容，如果未能解决你的问题，请参考以下文章