sklearn.preprocessing 中 LabelEncoder 的类似方法?
Posted
技术标签:
【中文标题】sklearn.preprocessing 中 LabelEncoder 的类似方法?【英文标题】:A similar approach for LabelEncoder in sklearn.preprocessing? 【发布时间】:2018-07-05 16:00:40 【问题描述】:对于像sex
这样的分类数据,我们通常在scikit learn
中使用LabelEncorder()
。但是如果我要使用Tensorflow
而不是Scikit Learn
,那么执行此类任务的等效功能或方法是什么?我知道我们可以用tensorflow
轻松地做one hot encoding
,但是它会创建标签为10
,01
而不是1
,0
。
【问题讨论】:
【参考方案1】:TensorFlow 中有一个名为 tf.feature_columns 的包,其中包含 4 种从输入数据创建分类列的方法:
categorical_column_with_hash_bucket(...):将输入值散列到固定数量的类别 categorical_column_with_identity(...):如果您有数字输入并且希望将值本身视为分类列 categorical_column_with_vocabulary_list(...):根据固定(记忆)单词列表输出类别 categorical_column_with_vocabulary_file(...):与 _list 相同,但从文件中读取词汇表该软件包还提供了更多将输入数据导入模型的方法。有关概述,请参阅此软件包开发人员编写的 blogpost。
【讨论】:
内嵌了问题直接询问的更多信息。这篇博文是由软件包的开发者编写的。 对正在预测的变量进行标签编码的最佳选择是什么?以上是关于sklearn.preprocessing 中 LabelEncoder 的类似方法?的主要内容,如果未能解决你的问题,请参考以下文章
2.2sklearn.preprocessing.PolynomialFeatures生成交叉特征
如何在 tf.data.Dataset.map 中使用 sklearn.preprocessing?
sklearn.preprocessing.LabelBinarizer
ModuleNotFoundError sklearn.preprocessing, Pickle