选择哪种分类算法?

Posted

技术标签:

【中文标题】选择哪种分类算法?【英文标题】:Which classification algorithm to choose? 【发布时间】:2011-06-26 23:16:37 【问题描述】:

我想将文本文档分为四类。我还有很多已经分类的样本可以用于训练。我希望该算法能够即时学习。请提出一个适合此要求的最佳算法。

【问题讨论】:

【参考方案1】:

如果“即时”是指在线学习(训练和分类可以交错),我建议使用k-nearest neighbor 算法。它在 Weka 和 TiMBL 包中提供。

感知器也可以做到这一点。

“最佳”在这种情况下并不是一个定义明确的术语。

【讨论】:

【参考方案2】:

有几种算法可以即时学习。示例:k-最近邻、朴素贝叶斯、神经网络。您可以在样本语料库上尝试这些方法的适用程度。

【讨论】:

【参考方案3】:

嗯....我不得不说文档分类与你们的想法有些不同。

通常,在文档分类中,经过预处理后,测试数据总是非常庞大,例如 O(N^2)...因此可能计算量太大。

我想到的另一个典型分类器是判别分类器......它不需要数据集的生成模型。训练完成后,你要做的就是把你的单条输入到算法中,然后它就会被分类。

祝你好运。例如,您可以查看 E. Alpadin 的书《机器学习简介》。

【讨论】:

【参考方案4】:

由于您有未标记的数据,因此您可能希望使用一个有帮助的模型。我首先想到的是非线性 NCA:Learning a Nonlinear Embedding by Preserving Class Neighbourhood Structure, (Salakhutdinov, Hinton)。

【讨论】:

以上是关于选择哪种分类算法?的主要内容,如果未能解决你的问题,请参考以下文章

一般来说,选择哪种机器学习分类器? [关闭]

EasyDL的哪种算法更适合你的图像分类应用

交易数据的数据挖掘分类——哪种算法最适合?

决定使用哪种机器学习算法

训练集、验证集和测试集

分类算法列一下有多少种?应用场景?分类算法介绍常见分类算法优缺点如何选择分类算法分类算法评估