样本数据异常值处理的三种方法
Posted 空中旋转篮球
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了样本数据异常值处理的三种方法相关的知识,希望对你有一定的参考价值。
1.3sigma异常值识别
数据需要服从正态分布,正负3∂的概率是99.7%,那么距离平均值3∂之外的值出现的概率为P(|x-u| 3∂) = 0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。
2.IQR异常值识别
四分位距(IQR)就是上四分位与下四分位的差值。而我们通过IQR的1.5倍为标准,规定:超过(上四分位+1.5倍IQR距离,或者下四分位-1.5倍IQR距离)的点为异常值。
箱体图是一种比较常见的异常值检测方法,一般取所有样本的25%分位点Q1和75%分位点Q3,两者之间的距离为箱体的长度IQR,可认为小于Q1-1.5IQR或者大于Q3+1.5IQR的样本值为异常样本。
3.MAD异常值识别方法
MAD(median absolute deviation)绝对中位差。
在统计学中,MAD是对单变量数值型数据的样本偏差的一种鲁棒性测量,即是用来描述单变量样本在定量数据中可变的一种标准。
假定数据服从正态分布,让异常点(outliers)落在两侧的 50% 的面积里,让正常值落在中间的 50% 的区域里。
4.处理异常值的方法
异常值的数据通常将其重新赋值,有以下方法,分别可以设置为:
空值、平均值、中位数、众数、0值、随机数等。
以上是关于样本数据异常值处理的三种方法的主要内容,如果未能解决你的问题,请参考以下文章