最佳文本文档分类算法 [关闭]

Posted

技术标签:

【中文标题】最佳文本文档分类算法 [关闭]【英文标题】:Best Text Document Classification Algorithm [closed] 【发布时间】:2015-11-10 10:39:16 【问题描述】:

我想知道文本分类的最佳可用算法。我想根据体育、银行、技术等对文档进行分类。请建议好的算法以获得最高的准确性。

【问题讨论】:

机器学习没那么容易。我建议你从 Andrew Ng 的 MOOC 开始,大致了解它的全部内容 【参考方案1】:

没有最好的算法。请参阅“数据挖掘第四定律 – “NFL-DM”http://khabaza.codimension.net/index_files/9laws.htm

您确实需要一种可以处理多列的算法。如果需要,列多于行。这排除了基于矩阵的算法。

朴素贝叶斯和 SVM 是文本分类的热门选择。

【讨论】:

我尝试了朴素贝叶斯,但无法获得良好的准确性。如何提高准确性?【参考方案2】:

良好的准确性不仅基于机器学习算法。也是基于特征选择。 尝试定义特定于任务的功能或分析您的功能空间。

【讨论】:

以上是关于最佳文本文档分类算法 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 SVM 和 KNN 对文本文档进行分类

从文本文档图像中提取文本检测特征

使用随机森林对文本文档进行分类

如何将文本文档表示为特征向量进行文本分类?

读取大文件的最佳方式(例如非常大的文本文档)

查找哈希集中每个单词在文本文档中出现的次数