机器学习数据预处理之缺失值：预测填充（回归模型填充分类模型填充）

Posted 2021-09-11 Data+Science+Insight

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习数据预处理之缺失值：预测填充（回归模型填充分类模型填充）相关的知识，希望对你有一定的参考价值。

机器学习数据预处理之缺失值：预测填充（回归模型填充、分类模型填充）

garbage in, garbage out.

没有高质量的数据，就没有高质量的数据挖掘结果，数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时，可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中，往往缺失数据占有相当的比重。这时如果手工处理非常低效，如果舍弃缺失记录，则会丢失大量信息，使不完全观测数据与完全观测数据间产生系统差异，对这样的数据进行分析，你很可能会得出错误的结论。

常见的KNN模型就可以进行缺失值的填充，而且sklearn提供了现成的API；

`sklearn.impute`.KNNImputer

class sklearn.impute.KNNImputer(*, missing_values=nan, n_neighbors=5, weights=\'uniform\', metric=\'nan_euclidean\', copy=True, add_indicator=False)

如下将一步步阐述预测填充的过程：

(1)把需要填充缺失值的某一列特征(Feature_A)作为新的标签(Label_A)
(2)然后找出与 Label_A 相关性较强的特征作为它的模型特征
(3)把 Label_A 非缺失值部分作为训

以上是关于机器学习数据预处理之缺失值：预测填充（回归模型填充分类模型填充）的主要内容，如果未能解决你的问题，请参考以下文章

机器学习数据预处理之缺失值：众数（mode）填充