机器学习数据预处理之缺失值:最小值最大值填充
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习数据预处理之缺失值:最小值最大值填充相关的知识,希望对你有一定的参考价值。
机器学习数据预处理之缺失值:最小值最大值填充
garbage in, garbage out.
没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常低效,如果舍弃缺失记录,则会丢失大量信息,使不完全观测数据与完全观测数据间产生系统差异,对这样的数据进行分析,你很可能会得出错误的结论。
使用最大值或者最小值进行数据的填充;
df.min()
用来求每列的最小值
df.max()
用来求每列的最大值
# 仿真数据集;
import numpy as np
import pandas as pd
# 构造数据
def dataset():
col1 = [1, 2, 3, 4, 5, 6, 7, 8, 9,10]
col2 = [3, 1, 7, np.nan, 4, 0, 5, 7, 12, np.nan]
col3 = [3, np.nan, np.nan, np.nan, 9, np.nan, 10, np.nan, 4, np.nan]
y = [10, 15, 8, 12, 17, 9, 7, 14, 16, 20]
data = {'feature1':col1, 'feature2':col2, 'feature3':col3, 'label':y}
df = pd.DataFrame(data)
return df
data = dataset()
data
# 最大值、最小值;
# max min
# 最大值/最小值填充
df11.fillna(df11.max())
df11.fillna(df11.min())
参考:缺失值处理;
参考:【特征工程系列】特征工程理论与代码实现
参考:数据分析中的缺失值处理
参考:缺失值的处理方法
参考:缺失值填充的几种方法
以上是关于机器学习数据预处理之缺失值:最小值最大值填充的主要内容,如果未能解决你的问题,请参考以下文章