手把手教你掌握4类数据清洗操作

Posted 2022-03-05 Python学习与数据挖掘

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了手把手教你掌握4类数据清洗操作相关的知识，希望对你有一定的参考价值。

本文介绍数据清洗的相关内容，主要涉及缺失值清洗、格式内容清洗、逻辑错误清洗和维度相关性检查四个方面。

01 缺失值清洗

相信大家都听说过这样一句话：废料进、废品出（Garbage in, Garbage out）。如果模型基于错误的、无意义的数据建立，那么这个模型也会出错。因此，如果源数据带有缺失值（NaN），就需要在数据预处理中进行清洗。缺失值是最常见的数据问题，有很多处理缺失值的方法，一般均按照以下四个步骤进行。

1. 确定缺失值范围

具体代码如下：

# 检查数据缺失情况
def check_missing_data(df):
    return df.isnull().sum().sort_values(ascending = False)
check_missing_data(rawdata)
Income            1
Age               1
Online Shopper    0
Region            0
dtype: int64

对每个字段都计算其缺失值比例后，按照缺失比例和字段重要性，分别制定相应的解决策略，可用图1表示。

图3-6看似明确了不同情况的应对策略，但在实际应用中对特征的重要性判断非常复杂，通常需要到模型中去判断。对数据库进行研究并对所需解决的问题进行分析，可确定哪些特征属于重要特征，哪些特征可以省去或者删掉。

比如我们很难对每个数据的ID（独特编码）进行补全，在有的情境下这些信息是必要信息，不能够缺失，而在有的情境下却根本不需要这类信息。

比如我们有一组网购记录信息，其中包括每个用户在不同时间段的操作。当我们希望对每个用户进行分析的时候，用户名（UserID）就是不可或缺的，那么缺失用户名的数据很可能需要被清除。但如果我们不需要精确到对个人行为进行分析，那么用户名就没那么必要了。

所以在缺失值补全的操作前，**探索数据和深入了解数据库是必要的。**我们必须清楚每个变量所代表的含义，以及分析的问题可能关联的数据。在一个非常复杂的数据库中，在解决某个实际问题时，通常不需要所有的变量参与运算。

2. 去除不需要的字段

本步骤将减少数据维度，剔除一些明显与数据分析任务不匹配的数据，让与任务相关的数据更为突出。注意，最好不要更改原始数据，只是在下一步处理前提取出用于分析的数据。

同时这一步需要考虑之前缺失值的情况，保留对于有些缺失值占比不大或者通过其他信息可以进行推断的特征，去除缺失量太多的数据行或列。对于新手，强烈建议在清洗的过程中每做一步都备份一下，或者在小规模数据上试验成功后再处理全量数据，节约时间，也充分留足撤销操作的余地。

3. 填充缺失内容

具体代码如下：

test1 = rawdata.copy()# 将更改前的数据进行备份
test1 = test1.head(3)# 提取前三行进行测试
test1 = test1.dropna()# 去除数据中有缺失值的行
print(test1)
test1
     name      toy      born
0    Andy      NaN      NaN
1    Cindy     Gun      1998-12-25
2    Wendy     Gum      NaN
test1 = test1.dropna(axis=0)# 去除数据中有缺失值的行
     name      toy      born
1    Cindy     Gun      1998-12-25
test1 = test1.dropna(axis='columns')# 去除数据中有缺失值的列
     name
0    Andy
1    Cindy
2    Wendy
test1 = test1.dropna(how='all')# 去除数据完全缺失的行
test1 = test1.dropna(thresh=2)# 保留行中至少有两个值的行
test1 = test1.dropna(how='any')# 去除数据中含有缺失值的行
test1 = test1.dropna(how='any',subset=['toy'])# 去除toy列中含有缺失值的行
test1.dropna(inplace=True)# 在这个变量名中直接保存结果

在实际应用中，第2步和第3步的操作通常协同进行，在判断完维度相关性与重要性后，对想要保留的维度进行填充，最后对数据行进行必要的清洗，以避免可进行填充的有效字段在清洗时被剔除。

1）以同一指标的计算结果（均值、中位数、众数等）填充缺失值。代码如下：

test1 = test1.fillna(test1.mean())# 用均值填充缺失值
test1 = test1.fillna(test1.median())# 用中位数填充缺失值
test1 = test1.fillna(test1.mode())# 用众数填充缺失值

2）通过找寻带有缺失值的变量与其他数据完整的变量之间的关系进行建模，使用计算结果进行填充（这一方法较为复杂，而且结果质量可能参差不齐，可在后期习得数据建模技巧后进行尝试）。

3）以其他变量的计算结果填充缺失值。举个最简单的例子：年龄字段缺失，但是有屏蔽后六位的身份证号信息，那么就可以轻松找出出生年月，算出目前年龄。

4）以业务知识或经验推测填充缺失值。

4. 重新取数

如果某些变量非常重要同时缺失率高，那就需要和取数人员或业务人员进行沟通，了解是否有其他渠道可以取到相关数据。

继续以Income_n_onlineshopping为例介绍，如图2所示。

▲图2 查看数据是否存在缺失值

统计各列的缺失值情况，结果如图3所示。

dataset.isna().sum()          # 统计各列缺失值情况

▲图3 统计数据缺失值个数

从图3-7可以看出，这10行数据中第4行和第6行的部分值显示为NaN，也就是数据发生缺失。有时数据本身可能并不是在缺失值位置上留空，而是用0对空缺位置进行填充，根据对数据的理解我们也可以分辨出是否需要对0值数据进行统计和转换。

由于数值缺失占比较少，我们可以通过计算填补空缺，这里我们采用平均值填充。

# 设定填充方式为平均值填充
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')  
# 选取目标列
imputer = imputer.fit(rawdata.iloc[:,1:3]) 
# 对计算结果进行填充
rawdata.iloc[:,1:3] = imputer.transform(rawdata.iloc[:,1:3]) 
# 调整数据
rawdata.iloc[:,1:3] = rawdata.iloc[:,1:3].round(0).astype(int)