数据挖掘——统计学分析(三:数据的概括性度量)
Posted erma
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘——统计学分析(三:数据的概括性度量)相关的知识,希望对你有一定的参考价值。
数据的概括性度量
数据的分布特征可从三方面去描述:1)分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度; 2)分布的离散程度,反映各数据远离其中心值的趋势; 3)分布的形状,反映数据分布的偏态和峰态。
集中趋势的度量
分类数据:众数
一组数据中出现次数最多的变量值,主要用于测度分类数据的集中趋势,当然也适用于作为顺序数据以及数值型数据集中趋势的测度值。
顺序数据:中位数、分位数
中位数、四分位数、十分位数、百分位数
数值型数据:平均数
主要适用于数值型数据,根据所掌握数据的不同,平均数的计算形式和计算公式:
简单平均数和加权平均数
众数、中位数和平均数的比较
单峰分布的大多数据:众数、中位数和平均数之间的关系如下—数据分布是对称的,众数、中位数和平均数必定相等。
离散程度的度量
分类数据:异众比率
非众数据的频数占总频数的比例,主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。
适用于测度分类数据的分散程度。
顺序数据:四分位差
反映中间50%数据的离散程度,其值越小,说明中间的数据越集中;其值越大,说明中间的数据越分散。
主要适用于顺序数据的离散程度。
数值型数据:方差和标准差
极差:易受极端值的影响。
平均差:全面地反映一组数据的离散程度。
方差:较好地反映数据的离散程度,实际中应用最广。
标准差:比方差更具实际意义。
相对离散程度:离散系数。
离散系数->变异系数,是一组数据的标准差与其相应平均数之比。离散系数越大说明数据的离散程度也大;离散系数越小,说明数据的离散程度也小。
偏态与峰态的度量
偏态及其测度
对数据分布对称性地测度,用偏态系数来表示,偏态系数=0,说明数据分布是对称的。
偏态系数不等于0,说明数据分布非对称的;若偏态系数大于1或小于1,称为高度偏态分布;若偏态系数在0.5~1或-1~0.5之间,被认为是中等偏态分布;
峰态及其测度;
峰态是相对于标准正态分布而言的。如果一组数据服从标准正态分布,则峰态系数的值等于0,若峰态系数的值明显不等于0,则表明分布比正态分布更平或更尖。
以上是关于数据挖掘——统计学分析(三:数据的概括性度量)的主要内容,如果未能解决你的问题,请参考以下文章