请帮助我选择正确的分类器
Posted
技术标签:
【中文标题】请帮助我选择正确的分类器【英文标题】:Please help me on choosing right classifer 【发布时间】:2011-04-23 13:28:27 【问题描述】:我在为我的数据挖掘任务选择正确的分类器时遇到问题。
我正在使用统计方法标记网页,并使用 1-4 的等级来标记它们,1 是最差的,4 是最好的。
以前,我使用 SVM 来训练系统,因为我当时使用的是二进制 (1,0) 标签。但是现在由于我切换到这个 4 类标签,我需要更改分类器,因为我认为 SVM 分类器仅适用于二分类(如果我错了请纠正我)。
那么您能否在这里就我的分类目的最适合哪种分类器提供一些建议。
提前感谢您的建议。
【问题讨论】:
【参考方案1】:存在多类 SVM。 LibSVM 有一个实现,Weka 也有。
通常最好尝试使用多个分类器来找出最适合您的数据的分类器。分类器类型和训练算法的选择远不如您选择的特征集重要。您可以尝试朴素贝叶斯、多类 SVM、MaxEnt、投票感知器或您的库提供的任何东西。
【讨论】:
谢谢!你知道如何在 Weka 中启用多类 SVM 吗?我玩了一段时间,但它只适用于二进制类。 我自己不使用 Weka,但显然您需要weka.classifiers.functions.SMO
类或单独的插件 WLSVM (cs.iastate.edu/~yasser/wlsvm)
我很想知道关于特征集与算法类型的相对重要性的陈述背后的证据是什么。我刚刚遇到了一个例子,从幼稚的 baies 到 SVM 会产生很大的不同。功能集完全相同。如果你听 Google 的 Norvig 的话,这都不重要,只有训练集大小才重要。
朴素贝叶斯和 ID3 可能是个例外;当然存在差异,但在较新的算法中,根据我的经验,它们并没有那么大。是的,正如 Norvig(以及微软的 Eric Brill 所展示的),训练集的大小更为重要,但我猜 OP 有一个固定的集。【参考方案2】:
您在谈论“序数分类”。可以使用logistic regression,甚至using decision trees,或人工神经网络来修改using SVM(如前所述,它也在libSVM中实现)。
您甚至可以继续您的标签,执行您选择的回归分析,然后对输出进行去离散化。我上面提到的大多数方法都是在幕后完成的。
祝你好运
【讨论】:
【参考方案3】:您可以尝试查看 Andrew NG Lecture 关于如何选择最适合您的 ML 算法,我认为这很有启发性,它可能会让您对如何管理数据有所了解
【讨论】:
以上是关于请帮助我选择正确的分类器的主要内容,如果未能解决你的问题,请参考以下文章