使用 OneHotEncoder 和拟合数据时收到值错误
Posted
技术标签:
【中文标题】使用 OneHotEncoder 和拟合数据时收到值错误【英文标题】:Receiving a value error when using OneHotEncoder and fitting data 【发布时间】:2017-06-30 23:43:26 【问题描述】:我正在处理一项作业,我们正在 scikit-learn 中使用 OneHotEncoder 来打印所有类别。这是一个数据样本和我用来转换它的代码:
grade sub_grade short_emp emp_length_num home_ownership term
0 B B2 0 11 RENT 36 months
1 C C4 1 1 RENT 60 months
2 C C5 0 11 RENT 36 months
3 C C1 0 11 RENT 36 months
4 A A4 0 4 RENT 36 months
5 E E1 0 10 RENT 36 months
代码:
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(categorical_features='all', handle_unknown='error', n_values='auto', sparse=True)
encoder.fit(lending_club)
我收到的错误出现在术语列上:
ValueError: could not convert string to float: ' 36 months'
【问题讨论】:
【参考方案1】:OneHotEncoder
不支持字符串功能。您必须先将它们转换为整数,例如使用LabelEncoder
。另一种选择是在所有列上使用LabelBinarizer
。
见How to do Onehotencoding in Sklearn Pipeline。
【讨论】:
另一个问题,我在尝试通过选择多个字符串列(例如借贷_club ['grade','term'])传递 DataFrame 时遇到值错误。我应该将 DataFrame 分成两个 Frame 吗?还是使用 DataMapper 从数字数据中拆分字符串数据? 能否在 SO 中创建一个包含所有所需信息的新问题?【参考方案2】:scikit-learn 的 OneHotEncoder
支持从 0.20.0 开始的字符串。
【讨论】:
以上是关于使用 OneHotEncoder 和拟合数据时收到值错误的主要内容,如果未能解决你的问题,请参考以下文章
如何在 pandas 系列列表中使用 OneHotEncoder?
sklearn中的LabelEncoder和OneHotEncoder的区别
ValueError:未知标签类型:拟合数据时的“连续多输出”
尝试将 LabelEncoder 和 OneHotEncoder 用于具有多列的数据集