R异常数据检测及处理方法
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R异常数据检测及处理方法相关的知识,希望对你有一定的参考价值。
R异常数据检测及处理方法
数据中的异常值可能会影响或者干扰模型的准确性以及可靠性,如果我们不正确地检测和处理它们,尤其是在回归模型中异常值对模型的干扰比较大,即回归模型对异常值敏感。
为什么异常点检测很重要?
处理或改变真实观测中的异常值/极值不是标准操作程序。然而,了解它们对预测模型的影响是至关重要的。是否需要处理异常值以及如何处理异常值是由数据科学家的最佳判断来决定的。
那么,为什么识别极值很重要呢?因为,它会极大地偏向/改变拟合估计和预测。我们使用cars数据集来说明这一点。
为了更好地理解离群点(outlier)的含义,我们将比较一个简单的线性回归模型在cars数据集上有离群点和没有离群点的拟合程度。为了清楚地区分效果,我手动将极值引入原始cars数据集。然后,我对这两个数据集进行预测。
# 引入异常值之后的拟合效果对比;
# Inject outliers into data.
cars1 <- cars[1:30, ] # original data
cars_outliers <- data.frame(speed=c(19,19,20,20,20), dist=c(190, 186, 210, 220, 218)) # introduce outliers.
cars2 <- rbind(cars1, cars_outliers) # data with outliers.
# Plot of data with outliers.
par(mfrow=c(1, 2))
plot(cars2$speed, cars2$dist, xlim=c(0, 28), ylim=c(0, 230), main="With Outliers", xlab="speed", ylab="di
以上是关于R异常数据检测及处理方法的主要内容,如果未能解决你的问题,请参考以下文章
数据挖掘离群点检测方法详解及Sklearn中异常检测方法实战(附源码 超详细)