数据预处理:独热编码(One-Hot Encoding)
Posted -柚子皮-
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据预处理:独热编码(One-Hot Encoding)相关的知识,希望对你有一定的参考价值。
http://blog.csdn.net/pipisorry/article/details/61193868
问题由来
在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。
例如,考虑一下的三个特征:
["male", "female"]
["from Europe", "from US", "from Asia"]
["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]
如果将上述特征用数字表示,效率会高很多。例如:
["male", "from US", "uses Internet Explorer"] 表示为[0, 1, 3]
["female", "from Asia", "uses Chrome"]表示为[1, 2, 1]
但是,即使转化为数字表示后,上述数据也不能直接用在我们的分类器中。这个的整数特征表示并不能在分类器中直接使用,因为这样的连续输入,估计器会认为类别之间是有序的,但实际却是无序的。(例如:浏览器的类别数据则是任意排序的)。
[sklearn]
为什么使用o
以上是关于数据预处理:独热编码(One-Hot Encoding)的主要内容,如果未能解决你的问题,请参考以下文章