标称变量(Categorical Features)或者分类变量(Categorical Features​​​​​​​)编码为数值变量(Continuous Features​​​​​​​)

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了标称变量(Categorical Features)或者分类变量(Categorical Features​​​​​​​)编码为数值变量(Continuous Features​​​​​​​)相关的知识,希望对你有一定的参考价值。

标称变量(Categorical Features)或者分类变量(Categorical Features)编码为数值变量(Continuous Features)或者数值变量(Numeric

Features)

one-hot到底是什么鬼?

 

sklearn.preprocessing.LabelBinarizer()

sklearn.preprocessing.MultiLabelBinarizer()

pd.get_dummies()

 

 

 

 

如果你的标称变量(Categorical Features)没有天然的顺序特性那就使用LabelBinarizer进行编码:

 

LabelBinarizer编码出来的结果就是one-hot编码:

One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。

One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。

one-hot编码要求每个类别之间相互独立,如果之间存在某种连续型的关系&#

以上是关于标称变量(Categorical Features)或者分类变量(Categorical Features​​​​​​​)编码为数值变量(Continuous Features​​​​​​​)的主要内容,如果未能解决你的问题,请参考以下文章

有序标称变量(Categorical Features)编码为数值变量(Continuous Features​​​​​​​)详解及实践

使用Categorical_endcoder包对标称变量进行个性化编码

机器学习类别/标称(categorical)数据处理:目标编码(target encoding)

机器学习类别/标称(categorical)数据处理:序号编码(Ordinal Encoding)

机器学习类别/标称(categorical)数据处理:独热编码(One Hot Encoding)

TypeError:__init__() 得到了一个意外的关键字参数“categorical_features”:onehotencoder