选择哪种分类算法?
Posted
技术标签:
【中文标题】选择哪种分类算法?【英文标题】:Which classification algorithm to choose? 【发布时间】:2011-06-26 23:16:37 【问题描述】:我想将文本文档分为四类。我还有很多已经分类的样本可以用于训练。我希望该算法能够即时学习。请提出一个适合此要求的最佳算法。
【问题讨论】:
【参考方案1】:如果“即时”是指在线学习(训练和分类可以交错),我建议使用k-nearest neighbor 算法。它在 Weka 和 TiMBL 包中提供。
感知器也可以做到这一点。
“最佳”在这种情况下并不是一个定义明确的术语。
【讨论】:
【参考方案2】:有几种算法可以即时学习。示例:k-最近邻、朴素贝叶斯、神经网络。您可以在样本语料库上尝试这些方法的适用程度。
【讨论】:
【参考方案3】:嗯....我不得不说文档分类与你们的想法有些不同。
通常,在文档分类中,经过预处理后,测试数据总是非常庞大,例如 O(N^2)...因此可能计算量太大。
我想到的另一个典型分类器是判别分类器......它不需要数据集的生成模型。训练完成后,你要做的就是把你的单条输入到算法中,然后它就会被分类。
祝你好运。例如,您可以查看 E. Alpadin 的书《机器学习简介》。
【讨论】:
【参考方案4】:由于您有未标记的数据,因此您可能希望使用一个有帮助的模型。我首先想到的是非线性 NCA:Learning a Nonlinear Embedding by Preserving Class Neighbourhood Structure, (Salakhutdinov, Hinton)。
【讨论】:
以上是关于选择哪种分类算法?的主要内容,如果未能解决你的问题,请参考以下文章