数据预处理：独热编码（One-Hot Encoding）

Posted 2020-09-03 -柚子皮-

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据预处理：独热编码（One-Hot Encoding）相关的知识，希望对你有一定的参考价值。

问题由来

在很多机器学习任务中，特征并不总是连续值，而有可能是分类值。

例如，考虑一下的三个特征：

["male", "female"]

["from Europe", "from US", "from Asia"]

["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]

如果将上述特征用数字表示，效率会高很多。例如：

["male", "from US", "uses Internet Explorer"] 表示为[0, 1, 3]

["female", "from Asia", "uses Chrome"]表示为[1, 2, 1]

但是，即使转化为数字表示后，上述数据也不能直接用在我们的分类器中。这个的整数特征表示并不能在分类器中直接使用，因为这样的连续输入，估计器会认为类别之间是有序的，但实际却是无序的。(例如：浏览器的类别数据则是任意排序的)。

[sklearn]

以上是关于数据预处理：独热编码（One-Hot Encoding）的主要内容，如果未能解决你的问题，请参考以下文章