机器学习数据预处理之缺失值:均值填充

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习数据预处理之缺失值:均值填充相关的知识,希望对你有一定的参考价值。

机器学习数据预处理之缺失值:均值填充

garbage in, garbage out.

没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常低效,如果舍弃缺失记录,则会丢失大量信息,使不完全观测数据与完全观测数据间产生系统差异,对这样的数据进行分析,你很可能会得出错误的结论。

平均数,统计学术语,是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。
在统计工作中,平均数(均值)和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。

使用统计均值进行缺失值的填充;

使用fillna函数

df.fillna(df.mean());

# 仿真数据集;

import numpy as np
import pandas as pd

# 构造数据
def dataset():
    col1 = [1, 2, 3, 4, 5, 6, 7, 8, 9,10]
    col2 = [3, 1, 7, np.nan, 4, 0, 5, 7, 12, np.nan]
    col3 = [3, np.nan, np.nan, np.nan, 9, np.nan, 10, np.nan, 4, np.nan]
    y = [10, 15, 8, 12, 17, 9, 7, 14, 16, 20]
    data = {\'feature1\':col1, &#

以上是关于机器学习数据预处理之缺失值:均值填充的主要内容,如果未能解决你的问题,请参考以下文章

机器学习数据预处理之缺失值:预测填充(回归模型填充分类模型填充)

机器学习数据预处理之缺失值:固定值填充

机器学习数据预处理之缺失值:前向填充

机器学习数据预处理之缺失值:后向填充

机器学习数据预处理之缺失值:众数(mode)填充

机器学习数据预处理之缺失值:中位数填充