标称变量(Categorical Features)或者分类变量(Categorical Features)编码为数值变量(Continuous Features)
Posted Data+Science+Insight
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了标称变量(Categorical Features)或者分类变量(Categorical Features)编码为数值变量(Continuous Features)相关的知识,希望对你有一定的参考价值。
标称变量(Categorical Features)或者分类变量(Categorical Features)编码为数值变量(Continuous Features)或者数值变量(Numeric
Features)
one-hot到底是什么鬼?
sklearn.preprocessing.LabelBinarizer()
sklearn.preprocessing.MultiLabelBinarizer()
pd.get_dummies()
如果你的标称变量(Categorical Features)没有天然的顺序特性那就使用LabelBinarizer进行编码:
LabelBinarizer编码出来的结果就是one-hot编码:
One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。
One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。
one-hot编码要求每个类别之间相互独立,如果之间存在某种连续型的关系&#
以上是关于标称变量(Categorical Features)或者分类变量(Categorical Features)编码为数值变量(Continuous Features)的主要内容,如果未能解决你的问题,请参考以下文章
有序标称变量(Categorical Features)编码为数值变量(Continuous Features)详解及实践
使用Categorical_endcoder包对标称变量进行个性化编码
机器学习类别/标称(categorical)数据处理:目标编码(target encoding)
机器学习类别/标称(categorical)数据处理:序号编码(Ordinal Encoding)
机器学习类别/标称(categorical)数据处理:独热编码(One Hot Encoding)
TypeError:__init__() 得到了一个意外的关键字参数“categorical_features”:onehotencoder