机器学习离散型特征为什么要用One-Hot编码?

Posted Alex Hub

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习离散型特征为什么要用One-Hot编码?相关的知识,希望对你有一定的参考价值。

以前专门思考过这个问题,碰巧今天又遇到了,记录一下。

数据集中的特征分为离散型特征和连续型特征,在机器学习算法中,特征之间距离的计算是十分重要的,因此,直接把离散变量的取值转换为数值,并不能很好地代表特征之间的距离。

比如颜色特征,其总共有棕色、橙色、白色、黄色4种,假设将其映射为1、2、3、4,则棕色和橙色之间的距离是2-1=1,而棕色和白色之间的距离是3-1=2,这显然是不符合实际情况的,因为任意两个颜色之间的距离应该是相等的。

因此,需要对特征进行One-Hot编码,简单来讲,One-Hot编码就是离散特征有多少取值,就用多少维度的来表示特征。

仍以颜色特征为例,经过One-Hot编码后将会转为4个特征,分别是:是否为棕色、是否为橙色、是否为白色、是否为黄色,并且这4个特征取值只有0和1。

经过One-Hot编码之后,每两个颜色之间的距离都是一样的,比之前的处理更合理。

以上是关于机器学习离散型特征为什么要用One-Hot编码?的主要内容,如果未能解决你的问题,请参考以下文章

机器学习:数据预处理之独热编码(One-Hot)

连续型特征的归一化和离散特征的one-hot编码

one-hot 编码

AutoML学习---机器学习01

数据预处理之one-hot编码

OneHotEncoder独热编码和 LabelEncoder标签编码