样本数据异常值处理的三种方法

Posted 空中旋转篮球

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了样本数据异常值处理的三种方法相关的知识,希望对你有一定的参考价值。

1.3sigma异常值识别

数据需要服从正态分布,正负3∂的概率是99.7%,那么距离平均值3∂之外的值出现的概率为P(|x-u| 3∂) = 0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。

 2.IQR异常值识别

四分位距(IQR)就是上四分位与下四分位的差值。而我们通过IQR的1.5倍为标准,规定:超过(上四分位+1.5倍IQR距离,或者下四分位-1.5倍IQR距离)的点为异常值。

箱体图是一种比较常见的异常值检测方法,一般取所有样本的25%分位点Q1和75%分位点Q3,两者之间的距离为箱体的长度IQR,可认为小于Q1-1.5IQR或者大于Q3+1.5IQR的样本值为异常样本。

 3.MAD异常值识别方法

MAD(median absolute deviation)绝对中位差。
在统计学中,MAD是对单变量数值型数据的样本偏差的一种鲁棒性测量,即是用来描述单变量样本在定量数据中可变的一种标准。

假定数据服从正态分布,让异常点(outliers)落在两侧的 50% 的面积里,让正常值落在中间的 50% 的区域里。

 4.处理异常值的方法

异常值的数据通常将其重新赋值,有以下方法,分别可以设置为:

空值、平均值、中位数、众数、0值、随机数等。

以上是关于样本数据异常值处理的三种方法的主要内容,如果未能解决你的问题,请参考以下文章

样本数据异常值处理的三种方法

异常检测统计学方法

异常检测(Anomaly Detection)

微服务异常的三种场景和处理方法

对于异常值的检测

python中try except处理程序异常的三种常用方法