机器学习数据预处理之缺失值:插值法填充+多项式插值

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习数据预处理之缺失值:插值法填充+多项式插值相关的知识,希望对你有一定的参考价值。

机器学习数据预处理之缺失值:插值法填充+多项式插值

garbage in, garbage out.

没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常低效,如果舍弃缺失记录,则会丢失大量信息,使不完全观测数据与完全观测数据间产生系统差异,对这样的数据进行分析,你很可能会得出错误的结论。

插值法又称“内插法”,是利用函数f(x)在某区间中已知的若干点的函数值,作出适当的特定函数,在区间的其他点上用这特定函数的值作为函数f(x)的近似值,这种方法称为插值法。如果这特定函数是多项式,就称它为多项式插值

 

 

# 插值法

# 多项式插值;

以上是关于机器学习数据预处理之缺失值:插值法填充+多项式插值的主要内容,如果未能解决你的问题,请参考以下文章

python数据挖掘分析清洗——缺失值处理方法汇总

数据分析缺失值处理(Missing Values)——删除法填充法插值法

缺失值处理拉格朗日插值法—随机森林算法填充—sklearn填充(均值/众数/中位数)

pandas dataframe缺失值(np.nan)处理:识别缺失情况删除0值填补均值填补中位数填补加缺失标签插值填充详解及实例

数据插补—拉格朗日插值法

技巧 Pandas 数据填充