机器学习类别/标称(categorical)数据处理:独热编码(One Hot Encoding)

Posted Data+Science+Insight

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习类别/标称(categorical)数据处理:独热编码(One Hot Encoding)相关的知识,希望对你有一定的参考价值。

机器学习类别/标称(categorical)数据处理:独热编码(One Hot Encoding)

序号编码:序号编码通常用于处理类别间具有大小关系的数据

可以通过导入sklearn.preprocessing中的OrdinalEncoder进行处理。

独热编码:通常用于处理类别间不具有大小关系的特征。

可以通过导入sklearn.preprocessing中的OneHotEncoder,创建哑变量进行处理。或者使用pandas的get dummy方法;

二进制编码:二进制编码主要分为两步,先用序号编码给每个类别赋予一个类别ID,然后将类别ID对应的二进制编码作为结果。

target encoding:其实就是将分类特征替换为对应目标值的后验概率。

以性别“男”、“女”和“其他”为例,分别赋予其类别ID为1,2,3,对应二进制编码为001,010,011。

二进制编码本质上是利用二进制对ID进行哈希映射,最终得到0/1特征向量,且维数少于独热编码,节省了存储空间。

(1)序号编码。常用于处理类别间具有大小关系的数据,比如成绩。

(2)one hot或者multi hot编码。常

以上是关于机器学习类别/标称(categorical)数据处理:独热编码(One Hot Encoding)的主要内容,如果未能解决你的问题,请参考以下文章

机器学习类别/标称(categorical)数据处理:独热编码(One Hot Encoding)

标称变量(Categorical Features)或者分类变量(Categorical Features​​​​​​​)缺失值填补详解及实战

使用Categorical_endcoder包对标称变量进行个性化编码

标称变量(Categorical Features)或者分类变量(Categorical Features​​​​​​​)编码为数值变量(Continuous Features​​​​​​​)

有序标称变量(Categorical Features)编码为数值变量(Continuous Features​​​​​​​)详解及实践

机器学习算法优劣势及适用场景总结