SVM(或其他 ML 模型)的预测准确度取决于特征的编码方式?
Posted
技术标签:
【中文标题】SVM(或其他 ML 模型)的预测准确度取决于特征的编码方式?【英文标题】:How much prediction accuracy of SVM (or other ML models) depend on the way features are encoded? 【发布时间】:2015-06-12 23:05:17 【问题描述】:假设对于一个给定的机器学习问题,我们有一个特征是这个人拥有哪辆车。我们可以通过以下方式之一对这些信息进行编码:
-
为每辆车分配一个 ID。制作一列“CAR_POSSESSED”并将特征 ID 作为值。
为每辆汽车制作列,并根据该汽车是否为所考虑的样本所拥有,输入 0 或 1。列将类似于“BMW_POSSESSED”、“AUDI_POSSESSED”。
在我的实验中,当与 SVM 一起尝试时,第 2 种方法的性能比第一种方法大大 更好。
编码方式如何影响模型学习,有没有研究过编码影响的资源?还是我们需要进行 hit and trial 来检查它在哪里表现最好?
【问题讨论】:
【参考方案1】:第一种方法的问题是您使用任意数字来表示特征(例如 BMW=2 等),而 SVM 会认真对待这些数字,就好像它们有顺序一样:例如它可能会尝试使用 CAR_OWNED>3 的情况进行预测。 所以第二种方式更好。
【讨论】:
好的,我也得到了答案。分类特征必须以布尔形式提供,原因如您所说。数值特征按原样提供。谢谢!但是仍然有一些资源可以讨论 feature encoding?【参考方案2】:第 2.1 章分类特征:
http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf
如果你搜索“svm Categorical Features”,你会发现更多
【讨论】:
以上是关于SVM(或其他 ML 模型)的预测准确度取决于特征的编码方式?的主要内容,如果未能解决你的问题,请参考以下文章