Scikit-learn Imputer 降维
Posted
技术标签:
【中文标题】Scikit-learn Imputer 降维【英文标题】:Scikit-learn Imputer Reducing Dimensions 【发布时间】:2016-12-18 09:58:01 【问题描述】:我有一个包含 332 列的数据框。我想估算值以便能够使用 scikit-learn 的决策树分类器。我的问题是 imputer 函数结果数据的列只有 330。
from sklearn.preprocessing import Imputer
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
cols = data.columns
new = imp.fit_transform(data)
print(data.shape,new.shape)
(34132, 332) (34132, 330)
【问题讨论】:
你有全 NaN 列吗? 是的。这就是我的回答。谢谢。 【参考方案1】:根据documentation of sklearn.preprocessing.Imputer
:
当axis=0时,只包含适合缺失值的列在变换时被丢弃。
所以,这是删除所有缺失值的列。
【讨论】:
以上是关于Scikit-learn Imputer 降维的主要内容,如果未能解决你的问题,请参考以下文章
scikit-learn.impute 没有使用机器学习 A-Z 教程中的代码通过 Spyder 从 Imputer 导入