标称变量(Categorical Features)或者分类变量(Categorical Features​​​​​​​)缺失值填补详解及实战

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了标称变量(Categorical Features)或者分类变量(Categorical Features​​​​​​​)缺失值填补详解及实战相关的知识,希望对你有一定的参考价值。

标称变量(Categorical Features)或者分类变量(Categorical Features)缺失值填补、详解及实战

 

核心学习函数或者方法:

KNeighborsClassifier()

np.hstack()

np.vstack

 

有一个分类特征或者标称变量,它包含需要用预测值替换的缺失值。理想的解决方案是训练一个机器学习分类器算法来预测缺失值,通常是k-nearest neighbors (KNN)分类器来进行缺失值得填补。

 

KNN分类器进行缺失填补:

# Load libraries
import numpy as np
from sklearn.neighbors import KNeighborsClassifier

# Create feature matrix with categorical feature
X = np.array([[0, 2.10, 1.45],
              [1, 1.18, 1.33],
              [0, 1.22, 1.27],
              [1, -0.21, -1.19]])

# Create feature matrix with missing values in the categorical feature
X_with_nan = np.array([[np.nan, 0.87, 1.31],
                       [np.nan, -0.67, -0.22]])

# Train KNN learner
clf = KNeighborsClassifier(3, weights=\'distance\')
trained_model = clf.fit(X[:,1:], X[:,0])

# Pred

以上是关于标称变量(Categorical Features)或者分类变量(Categorical Features​​​​​​​)缺失值填补详解及实战的主要内容,如果未能解决你的问题,请参考以下文章

有序标称变量(Categorical Features)编码为数值变量(Continuous Features​​​​​​​)详解及实践

使用Categorical_endcoder包对标称变量进行个性化编码

机器学习类别/标称(categorical)数据处理:目标编码(target encoding)

机器学习类别/标称(categorical)数据处理:序号编码(Ordinal Encoding)

机器学习类别/标称(categorical)数据处理:独热编码(One Hot Encoding)

TypeError:__init__() 得到了一个意外的关键字参数“categorical_features”:onehotencoder