数据分析与挖掘2——数据预处理

Posted Mrs.King_UP

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析与挖掘2——数据预处理相关的知识,希望对你有一定的参考价值。

1.缺失值处理

  1. 查看缺失值
train_data.info()#可以查看特征的确实情况

import missingno as msno
msno.matrix(train_data,labels=True)#可以一目了然的看到每个变量的缺失情况
msno.bar(train_data)#条形图显示缺失值情况


  1. 删除:适用于数据量较大(记录较多)且缺失比较较小的情形,去掉后对总体影响不大。
  • 缺失值较少,删除包含缺失值的行,train_data.dropna()
  • 删除缺失值大于80%的列,train_data.dropna(thresh=len(data)*0.2, axis=1)
  • 某一列缺失严重,删除某列,train_data.drop(['V0','V1'],axis=1,inplace=True)
  • 丢弃某几列有缺失的行,train_data.dropna(axis=0, subset=['a','b'], inplace=True)
    其中,axis=1表示行,inplace=True表示替换掉原始数据
  1. 填充:缺失值填充之前,先了解缺失的变量含义。
  • 平均值适用于近似正态分布数据,观测值较为均匀散布均值周围;
  • 中位数适用于偏态分布或者有离群点数据,中位数是更好地代表数据中心趋势;
  • 众数一般用于类别变量,无大小、先后顺序之分。
from scipy import stats
# 均值填充
data['col'] = data['col'].fillna(data['col'].means())
# 中位数填充
data['col'] = data['col'].fillna(data['col'].median())
# 众数填充
data['col'] = data['col'].fillna(stats.mode(data['col'])[0][0])

也可以借助Imputer类处理缺失

from sklearn.preprocessing import Imputer
imr = Imputer(missing_values='NaN', strategy='mean', axis=0)
imputed_data =pd.DataFrame(imr.fit_transform(df.values),columns=df.columns)#使用均值填充df.columns列
imputed_data
  1. 预测模型填充:将没有缺失值的用作训练集,有缺失值的为测试集;缺失变量为target,可以用分类or回归进行预测

fancyimpute 类

from fancyimpute import KNN
fill_knn = KNN(k=3).fit_transform(data)
data = pd.DataFrame(fill_knn)

sklearn类

from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor
def knn_filled_func(x_train, y_train, test, k = 3, dispersed = True):
    # params: x_train 为目标列不含缺失值的数据(不包括目标列)
    # params: y_train 为不含缺失值的目标列
    # params: test 为目标列为缺失值的数据(不包括目标列)
    if dispersed:
        knn= KNeighborsClassifier(n_neighbors = k, weights = "distance")
    else:
        knn= KNeighborsRegressor(n_neighbors = k, weights = "distance")
    knn.fit(x_train, y_train)
    return test.index, knn.predict(test)

随机森林:利用已有数据拟合模型,对缺失变量进行预测

from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
 
 
def knn_filled_func(x_train, y_train, test, k = 3, dispersed = True):
    # params: x_train 为目标列不含缺失值的数据(不包括目标列)
    # params: y_train 为不含缺失值的目标列
    # params: test 为目标列为缺失值的数据(不包括目标列)
    if dispersed:
        rf= RandomForestRegressor()
    else:
        rf= RandomForestClassifier()
    rf.fit(x_train, y_train)
    return test.index, rf.predict(test)

2.异常值处理

  1. 通过箱线图观测到异常值
  2. 处理方法:
  • 删除:异常值很小,直接删除
  • 转换:取对数的方式,会减轻由极值引起的变化
  • 填充:和处理缺失值一样

3.变量转换

  1. 使用直方图和核密度估计对特征分布进行分析,发现一些变量取值不均匀,所以要进行变换,使其落在合理的范围内.(很多模型前提条件是基于正态分布的,为了满足此条件,要对数据进行变换)

    此变量分布向右倾斜,可以采取取平方根、立方根、对数的方式;对于向左倾斜的分布,采取平方、立方、指数的方式;

    训练集和测试集分布不一致,将会导致模型泛化能力差,所以这种特征要删除或者进行变换
plt.figure(figsize=(5,5),dpi=80)#figsize中的第一个参数为图片宽度,第二个参数为图片长度
ax=sns.kdeplot(train_data['V5'],color='red',shade=True)
ax=sns.kdeplot(test_data['V5'],color='blue',shade=True)
ax.set_xlabel('V5')
ax.set_ylabel('Frequency')
ax=ax.legend(['train','test'])

以上是关于数据分析与挖掘2——数据预处理的主要内容,如果未能解决你的问题,请参考以下文章

数据挖掘实验数据预处理等深分箱与等宽分箱

数据挖掘实战——应用系统负载分析与容量预测(ARIMA模型)

数据挖掘概念与技术读书笔记数据预处理

数据分析与挖掘数据预处理

数据分析与挖掘2——数据预处理

笔记数据仓库与数据挖掘数据仓库与联机分析处理