如何判别测量数据中是不是有异常值

Posted 2023-04-23

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何判别测量数据中是不是有异常值相关的知识，希望对你有一定的参考价值。

　　
　　异常值outlier：指样本中的个别值，其数值明显偏离它（或他们）所属样本的其余观测值,也称异常数据，离群值。
　　
　　目前人们对异常值的判别与剔除主要采用物理判别法和统计判别法两种方法。
　　
　　所谓物理判别法就是根据人们对客观事物已有的认识，判别由于外界干扰、人为误差等原因造成实测数据值偏离正常结果，在实验过程中随时判断，随时剔除。
　　
　　统计判别法是给定一个置信概率，并确定一个置信限，凡超过此限的误差，就认为它不属于随机误差范围，将其视为异常值剔除。当物理识别不易判断时，一般采用统计识别法。
　　
　　对于多次重复测定的数据值，异常值常用的统计识别与剔除法有：
　　
　　拉依达准则法（3δ）：简单，无需查表。测量次数较多或要求不高时用。是最常用的异常值判定与剔除准则。但当测量次数《=10次时，该准则失效。
　　
　　如果实验数据值的总体x是服从正态分布的，则

　　式中，μ与σ分别表示正态总体的数学期望和标准差。此时，在实验数据值中出现大于μ＋3σ或小于μ—3σ数据值的概率是很小的。因此，根据上式对于大于μ＋3σ或小于μ—3σ的实验数据值作为异常值，予以剔除。具体计算方法参见http://202.121.199.249/foundrymate/lessons/data-analysis/13/131.htm
　　在这种情况下，异常值是指一组测定值中与平均值的偏差超过两倍标准差的测定值。与平均值的偏差超过三倍标准差的测定值，称为高度异常的异常值。在处理数据时，应剔除高度异常的异常值。异常值是否剔除，视具体情况而定。在统计检验时，指定为检出异常值的显著性水平α=0.05，称为检出水平；指定为检出高度异常的异常值的显著性水平α=0.01，称为舍弃水平，又称剔除水平(reject level)。
　　标准化数值（Z-score）可用来帮助识别异常值。Z分数标准化后的数据服从正态分布。因此，应用Z分数可识别异常值。我们建议将Z分数低于-3或高于3的数据看成是异常值。这些数据的准确性要复查，以决定它是否属于该数据集。
　　
　　肖维勒准则法（Chauvenet）：经典方法，改善了拉依达准则，过去应用较多，但它没有固定的概率意义，特别是当测量数据值n无穷大时失效。
　　狄克逊准则法（Dixon）：对数据值中只存在一个异常值时，效果良好。担当异常值不止一个且出现在同侧时，检验效果不好。尤其同侧的异常值较接近时效果更差，易遭受到屏蔽效应。
　　罗马诺夫斯基（t检验）准则法：计算较为复杂。
　　格拉布斯准则法（Grubbs）：和狄克逊法均给出了严格的结果，但存在狄克逊法同样的缺陷。朱宏等人采用数据值的中位数取代平均值，改进得到了更为稳健的处理方法。有效消除了同侧异常值的屏蔽效应。国际上常推荐采用格拉布斯准则法。
　　参考技术A 在回弹法检测砼强度中，按批抽样检测的测区数量往往很多，这就不可避免出现较多的检测异常值，怎样判断和处理这些异常值，对于提高检测结果的准确性意义重大。格拉布斯检验法是土木工程中常用的一种检验异常值的方法，其应用于回弹法检测砼强度，能有效提高按批抽样检测结果的准确性。本回答被提问者和网友采纳参考技术B 可以通过闭合差检核和重复观测的较差来判断。