sklearn.preprocessing 中 LabelEncoder 的类似方法?

Posted

技术标签:

【中文标题】sklearn.preprocessing 中 LabelEncoder 的类似方法?【英文标题】:A similar approach for LabelEncoder in sklearn.preprocessing? 【发布时间】:2018-07-05 16:00:40 【问题描述】:

对于像sex 这样的分类数据,我们通常在scikit learn 中使用LabelEncorder()。但是如果我要使用Tensorflow 而不是Scikit Learn,那么执行此类任务的等效功能或方法是什么?我知道我们可以用tensorflow 轻松地做one hot encoding,但是它会创建标签为1001 而不是10

【问题讨论】:

【参考方案1】:

TensorFlow 中有一个名为 tf.feature_columns 的包,其中包含 4 种从输入数据创建分类列的方法:

categorical_column_with_hash_bucket(...):将输入值散列到固定数量的类别 categorical_column_with_identity(...):如果您有数字输入并且希望将值本身视为分类列 categorical_column_with_vocabulary_list(...):根据固定(记忆)单词列表输出类别 categorical_column_with_vocabulary_file(...):与 _list 相同,但从文件中读取词汇表

该软件包还提供了更多将输入数据导入模型的方法。有关概述,请参阅此软件包开发人员编写的 blogpost。

【讨论】:

内嵌了问题直接询问的更多信息。这篇博文是由软件包的开发者编写的。 对正在预测的变量进行标签编码的最佳选择是什么?

以上是关于sklearn.preprocessing 中 LabelEncoder 的类似方法?的主要内容,如果未能解决你的问题,请参考以下文章

2.2sklearn.preprocessing.PolynomialFeatures生成交叉特征

如何在 tf.data.Dataset.map 中使用 sklearn.preprocessing?

sklearn.preprocessing.LabelBinarizer

ModuleNotFoundError sklearn.preprocessing, Pickle

sklearn.preprocessing.OneHotEncoder

如何使用 Sklearn.preprocessing 对包含列表的 pandas.DataFrame 列进行编码