SVM(或其他 ML 模型)的预测准确度取决于特征的编码方式?

Posted

技术标签:

【中文标题】SVM(或其他 ML 模型)的预测准确度取决于特征的编码方式?【英文标题】:How much prediction accuracy of SVM (or other ML models) depend on the way features are encoded? 【发布时间】:2015-06-12 23:05:17 【问题描述】:

假设对于一个给定的机器学习问题,我们有一个特征是这个人拥有哪辆车。我们可以通过以下方式之一对这些信息进行编码:

    为每辆车分配一个 ID。制作一列“CAR_POSSESSED”并将特征 ID 作为值。 为每辆汽车制作列,并根据该汽车是否为所考虑的样本所拥有,输入 0 或 1。列将类似于“BMW_POSSESSED”、“AUDI_POSSESSED”。

在我的实验中,当与 SVM 一起尝试时,第 2 种方法的性能比第一种方法大大 更好

编码方式如何影响模型学习,有没有研究过编码影响的资源?还是我们需要进行 hit and trial 来检查它在哪里表现最好?

【问题讨论】:

【参考方案1】:

第一种方法的问题是您使用任意数字来表示特征(例如 BMW=2 等),而 SVM 会认真对待这些数字,就好像它们有顺序一样:例如它可能会尝试使用 CAR_OWNED>3 的情况进行预测。 所以第二种方式更好。

【讨论】:

好的,我也得到了答案。分类特征必须以布尔形式提供,原因如您所说。数值特征按原样提供。谢谢!但是仍然有一些资源可以讨论 feature encoding【参考方案2】:

第 2.1 章分类特征:

http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf

如果你搜索“svm Categorical Features”,你会发现更多

【讨论】:

以上是关于SVM(或其他 ML 模型)的预测准确度取决于特征的编码方式?的主要内容,如果未能解决你的问题,请参考以下文章

ML-SVM案例学习案例一:对鸢尾花数据进行SVM分类(附源码)

SVM LibSVM 在预测时忽略特征 1,3,5

SVM模型进行分类预测时的参数调整技巧

SVM预测灰狼算法优化svm支持向量机预测matlab源码

SVM预测灰狼算法优化svm支持向量机预测matlab源码

SVM预测灰狼算法优化svm支持向量机预测matlab源码