正态分布的应用——基于峰度系数解释离群效应
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了正态分布的应用——基于峰度系数解释离群效应相关的知识,希望对你有一定的参考价值。
参考技术A 内容导入 :大家好这里是每天分析一点点。本期介绍的是数据分析基础系列,主要给大家介绍描述性统计分析原理,包括中位数、众数、平均数、方差、标准差、离散系数、峰度峰度、离群值等的原理、概念以及应用。再结合区域工资水平,探讨峰度在离群效应分析中的应用。文章内容适合数据分析小白,内容深入浅出,案例贴合实际。欢迎大家关注。
概念介绍:
峰度的概念:
峰度又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于0,峰的形状比较尖,比正态分布峰要陡峭。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。
峰度一般可表现为三种形态:尖顶峰度、平顶峰度和标准峰度。当变量值的次数在众数周围分布比较集中,使次数分布曲线比正态分布曲线顶峰更为隆起尖峭,称为尖顶峰度;当变量值的次数在众数周围分布较为分散,使次数分布曲线较正态分布曲线更为平缓,称为平顶峰度。
峰度的计算公式:
峰度计算为四阶中心距除以四阶标准差,所谓中心距,就是距离数据中心的距离,数据中心一般是值数据的平均值,因此中心距就是每个数减去平均数的和,然后求平均,四阶就是在这个基础上求四次方。四阶标准差就是标准差的四次方。
峰度的相关原理:
根据均值不等式,可以确定出峰度系数的取值范围:它的下限不会低于-2,上限不会高于数据的个数。有一些典型分布的峰度系数值得特别关注。例如,正态分布的峰度为常数0,均匀分布的峰度为常数-1.2。
峰度以K表示,以一般而言,正态分布为参照,峰度可以描述分布形态的陡缓程度,若K<0,则称分布具有不足的峰度,若K>0,则称分布具有过度的峰度。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性。
峰度的特点:
峰度的特点:
正态分布的峰度为0。
以一般而言,正态分布为参照,峰度可以描述分布形态的陡缓程度;
若k<0,则称分布具有不足的峰度;
若k>0,则称分布具有过度的峰度。
峰度的应用:
1. K>0,数据尖峰,数据集中在一个区域内,两侧存在离群值
2. K<0,数据平峰,数据相对不集中,数据无离群值。
综合应用场景:
接下来我们#数据峰度:
某地区随机50人的平均工资为来看个实际的案例吧。
2589,2163,2126,3500,2268,1871,2050,1856,2572,1000,3932,2105,1652,2559,2741,1766,2705,2067,3800,2749,2020,6918,1350,1168,1245,1966,1080,915,1563,2307,2861,600,711,696,2261,3260,2219,2415,2877,2143,2564172,951,1683,888,2880,4000,3500,1000,1250。请分析该地区的收入是否存在离群值。
我们可以使用峰度来解释离群的效应,用python的计算过程如下。
#求平均数 income_mean=np.mean(income)
#求中心距 center_dis=income-income_mean
#求标准差 sigma=np.std(income)
#求平均4阶中心距 center_dis4=sum(np.power(center_dis,4))/len(income)
#求标准差的4次方 sigma4=np.power(sigma,4)
#求数据峰度 kurtosis=center_dis4/sigma4-3
print(kurtosis)#数据峰度为:4.408 大于0,数据为尖峰。
根据峰度的原理,如果峰度大于0,峰的形状比较尖,比正态分布峰要陡峭。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。因此,我们可以得出结论,该地区收入是存在离群值。但是,离群值是极大值还是极小值呢?我们有如何进行确定。这就要结合偏度系数进行判断。还记得吗?上期我们的偏度系数测量为1.424,右偏。因此,该收入数据存在离群值,并且是极大的离群值,会使平均数大于中位数大于众数。大部分人的收入在平均值以下,贫富差距巨大。
各位还没有看懂的朋友关注一下我们的微信公众号,那里的视频解释更加精彩。
本期分享到这里,我们会在每周持续更新,咱们下期再见,期待您的光临。
有什么建议,比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等,请在下方留言。如果喜欢请关注。
[SPSS]学习笔记--数据分布形状描述
以下内容摘自:公众号- SPSS生活统计学
保存做复习之用。
峰度(Kurtosis)
峰度是描述总体(样本)中所有取值分布形态陡缓程度的统计量。通过计算可以得到峰度系数,峰度系数与分布形态的关系是:
峰度系数=3,扁平程度适中;
峰度系数<3,为扁平分布;
峰度系数>3,为尖峰分布;
正态分布的峰度系数为3。用SPSS计算峰度系数时,显示的结果是减去3后得到的数字,也就是与正态分布对比。所以SPSS的峰度系数与分布形态的关系是:
峰度系数=0,数据分布与正态分布的陡缓程度相同;
峰度系数<0,数据分布与正态分布相比较为平坦,为平顶峰;
峰度系数>0,数据分布与正态分布相比较为陡峭,为尖顶峰;
偏度(Skewness)
偏度这一指标,又称偏斜系数、偏态系数,是用来帮助判断数据序列的分布规律性的指标。 在数据序列呈对称分布(正态分布)的状态下,其均值、中位数和众数重合。且在这三个数的两侧,其它所有的数据完全以对称的方式左右分布。如果数据序列的分布不对称,则均值、中位数和众数必定分处不同的位置。这时,若以均值为参照点,则要么位于均值左侧的数据较多,称之为右偏;要么位于均值右侧的数据较多,称之为左偏(左偏还是右偏是以长尾为标志)。考虑到所有数据与均值之间的离差之和应为零这一约束,则当均值左侧数据较多的时候,均值的右侧必定存在数值较大的“离群”数据;同理,当均值右侧数据较多的时候,均值的左侧必定存在数值较小的“离群”数据。
峰度系数与分布形态的关系是:
偏度系数=0,为对称分布;
偏度系数<0,为左偏分布,长尾巴拖在左边;
偏度系数>0,为右偏分布,长尾巴拖在右边;
以上是关于正态分布的应用——基于峰度系数解释离群效应的主要内容,如果未能解决你的问题,请参考以下文章