异常点检查方法

Posted 2021-01-02 hoojjack

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了异常点检查方法相关的知识，希望对你有一定的参考价值。

奇异点、异常点检查

定义：

1）、novelty detection：当训练数据中没有离群点，我们的目标是用训练好的模型去检测另外新发现的样本；
2）、outlier detection：当训练数据中包含离群点，模型训练时要匹配训练数据的中心样本，忽视训练样本中的其它异常点；

sklearn提供了一些机器学习方法，可用于奇异（Novelty ）点或异常（Outlier）点检测，包括OneClassSVM、Isolation Forest、Local Outlier Factor (LOF) 等。其中OneClassSVM可用于Novelty Detection，而后两者可用于Outlier Detection。

One-Class SVM：

利用One-Class SVM，它有能力捕获数据集的形状,因此对于强非高斯数据有更加优秀的效果，例如两个截然分开的数据集。严格来说，一分类的SVM并不是一个异常点监测算法，而是一个奇异点检测算法：它的训练集不能包含异常样本，否则的话，可能在训练时影响边界的选取。但是，对于高维空间中的样本数据集，如果它们做不出有关分布特点的假设，One-class SVM将是一大利器。

严格地讲，OneClassSVM不是一种outlier detection方法，而是一种novelty detection方法：它的训练集不应该掺杂异常点，因为模型可能会去匹配这些异常点。但在数据维度很高，或者对相关数据分布没有任何假设的情况下，OneClassSVM也可以作为一种很好的outlier detection方法

Isolation Forest：

孤立森林是一个高效的异常点监测算法。SKLEARN提供了ensemble.IsolationForest模块。该模块在进行检测时，会随机选取一个特征，然后在所选特征的最大值和最小值随机选择一个分切面。该算法下整个训练集的训练就像一颗树一样，递归的划分。划分的次数等于根节点到叶子节点的路径距离d。所有随机树（为了增强鲁棒性，会随机选取很多树形成森林）的d的平均值，就是我们检测函数的最终结果。
那些路径d比较小的，都是因为距离主要的样本点分布中心比较远的。也就是说可以通过寻找最短路径的叶子节点来寻找异常点。它的例子也放在后面。

Reference

【1】http://scikit-learn.org/stable/auto_examples/svm/plot_oneclass.html

【2】https://blog.csdn.net/sinat_26917383/article/details/76647272

以上是关于异常点检查方法的主要内容，如果未能解决你的问题，请参考以下文章

Java 进阶之检查型异常与非检查型异常

java 检查异常和非检查异常

在 laravel 中处理异常而不在异常处理程序的渲染方法中进行类型检查异常并且不定义自定义异常？