缺失值的常见填充方法

Posted xfbestgood

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了缺失值的常见填充方法相关的知识,希望对你有一定的参考价值。

(1)如果缺值的样本占总数比例极高,我们可能就直接舍弃了,作为特征加入的话,可能反倒带入noise,影响最后的结果了;
 
(2)如果缺值的样本适中,而该属性非连续值特征属性(比如说类目属性),那就把NaN作为一个新类别,加到类别特征中;
       【注:NaN(Not a Number,非数)是计算机科学中数值数据类型的一类值,表示未定义或不可表示的值。】
(3)如果缺值的样本适中,而该属性为连续值特征属性,有时候我们会考虑给定一个step(比如这里的age,我们可以考虑每隔2/3岁为一个步长),然后把它离散化,之后把NaN作为一个type加到属性类目中;
 
(4)有些情况下,缺失的值个数并不是特别多,那我们也可以试着根据已有的值,拟合一下数据,补充上。

以上是关于缺失值的常见填充方法的主要内容,如果未能解决你的问题,请参考以下文章

在R语言中进行缺失值填充:估算缺失值

缺失值处理

数据分析中缺失值的处理

数据预处理----缺失值的填充

机器学习sklearn----用随机森林来填充缺失值

缺失值(NaN 值)与填充值的重叠图