Scikit-learn Imputer 降维

Posted

技术标签:

【中文标题】Scikit-learn Imputer 降维【英文标题】:Scikit-learn Imputer Reducing Dimensions 【发布时间】:2016-12-18 09:58:01 【问题描述】:

我有一个包含 332 列的数据框。我想估算值以便能够使用 scikit-learn 的决策树分类器。我的问题是 imputer 函数结果数据的列只有 330。

from sklearn.preprocessing import Imputer
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
cols = data.columns
new = imp.fit_transform(data)

print(data.shape,new.shape)
(34132, 332) (34132, 330)

【问题讨论】:

你有全 NaN 列吗? 是的。这就是我的回答。谢谢。 【参考方案1】:

根据documentation of sklearn.preprocessing.Imputer

当axis=0时,只包含适合缺失值的列在变换时被丢弃。

所以,这是删除所有缺失值的列。

【讨论】:

以上是关于Scikit-learn Imputer 降维的主要内容,如果未能解决你的问题,请参考以下文章

scikit-learn.impute 没有使用机器学习 A-Z 教程中的代码通过 Spyder 从 Imputer 导入

用scikit-learn进行LDA降维

Scikit-learn---2.降维

scikit-learn 中文本数据的监督降维

在 Scikit-Learn 中连接多维降维算法

[机器学习与scikit-learn-46]:特征工程-特征选择(降维)-2-常见的特征降维的方法大全