标称变量(Categorical Features)或者分类变量(Categorical Features)缺失值填补详解及实战
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了标称变量(Categorical Features)或者分类变量(Categorical Features)缺失值填补详解及实战相关的知识,希望对你有一定的参考价值。
标称变量(Categorical Features)或者分类变量(Categorical Features)缺失值填补、详解及实战
核心学习函数或者方法:
KNeighborsClassifier()
np.hstack()
np.vstack
有一个分类特征或者标称变量,它包含需要用预测值替换的缺失值。理想的解决方案是训练一个机器学习分类器算法来预测缺失值,通常是k-nearest neighbors (KNN)分类器来进行缺失值得填补。
KNN分类器进行缺失填补:
# Load libraries
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
# Create feature matrix with categorical feature
X = np.array([[0, 2.10, 1.45],
[1, 1.18, 1.33],
[0, 1.22, 1.27],
[1, -0.21, -1.19]])
# Create feature matrix with missing values in the categorical feature
X_with_nan = np.array([[np.nan, 0.87, 1.31],
[np.nan, -0.67, -0.22]])
# Train KNN learner
clf = KNeighborsClassifier(3, weights=\'distance\')
trained_model = clf.fit(X[:,1:], X[:,0])
# Pred
以上是关于标称变量(Categorical Features)或者分类变量(Categorical Features)缺失值填补详解及实战的主要内容,如果未能解决你的问题,请参考以下文章
有序标称变量(Categorical Features)编码为数值变量(Continuous Features)详解及实践
使用Categorical_endcoder包对标称变量进行个性化编码
机器学习类别/标称(categorical)数据处理:目标编码(target encoding)
机器学习类别/标称(categorical)数据处理:序号编码(Ordinal Encoding)
机器学习类别/标称(categorical)数据处理:独热编码(One Hot Encoding)
TypeError:__init__() 得到了一个意外的关键字参数“categorical_features”:onehotencoder