使用 OneHotEncoder 和拟合数据时收到值错误

Posted

技术标签:

【中文标题】使用 OneHotEncoder 和拟合数据时收到值错误【英文标题】:Receiving a value error when using OneHotEncoder and fitting data 【发布时间】:2017-06-30 23:43:26 【问题描述】:

我正在处理一项作业,我们正在 scikit-learn 中使用 OneHotEncoder 来打印所有类别。这是一个数据样本和我用来转换它的代码:

      grade sub_grade  short_emp  emp_length_num home_ownership        term
0          B        B2          0              11           RENT   36 months
1          C        C4          1               1           RENT   60 months
2          C        C5          0              11           RENT   36 months
3          C        C1          0              11           RENT   36 months
4          A        A4          0               4           RENT   36 months
5          E        E1          0              10           RENT   36 months

代码:

from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(categorical_features='all', handle_unknown='error', n_values='auto', sparse=True)
encoder.fit(lending_club)

我收到的错误出现在术语列上:

ValueError: could not convert string to float: ' 36 months'

【问题讨论】:

【参考方案1】:

OneHotEncoder 不支持字符串功能。您必须先将它们转换为整数,例如使用LabelEncoder。另一种选择是在所有列上使用LabelBinarizer

见How to do Onehotencoding in Sklearn Pipeline。

【讨论】:

另一个问题,我在尝试通过选择多个字符串列(例如借贷_club ['grade','term'])传递 DataFrame 时遇到值错误。我应该将 DataFrame 分成两个 Frame 吗?还是使用 DataMapper 从数字数据中拆分字符串数据? 能否在 SO 中创建一个包含所有所需信息的新问题?【参考方案2】:

scikit-learn 的 OneHotEncoder 支持从 0.20.0 开始的字符串。

【讨论】:

以上是关于使用 OneHotEncoder 和拟合数据时收到值错误的主要内容,如果未能解决你的问题,请参考以下文章

如何在 pandas 系列列表中使用 OneHotEncoder?

sklearn中的LabelEncoder和OneHotEncoder的区别

ValueError:未知标签类型:拟合数据时的“连续多输出”

尝试将 LabelEncoder 和 OneHotEncoder 用于具有多列的数据集

如何使用 OneHotEncoder 和 Pipeline 进行新的预测?

来自 sklearn 的 OneHotEncoder 在传递类别时会给出 ValueError