java中的文本分类库

Posted

技术标签:

【中文标题】java中的文本分类库【英文标题】:library for text classification in java 【发布时间】:2012-02-21 14:04:56 【问题描述】:

我有一组分类的文本文件。我想对另一组大型文本文件进行分类以用于我的研究。有没有比较好的方法?

我认为基于 SVM 的方法很有用,但是否有使用此类算法的简单且文档化的库?

【问题讨论】:

Weka 有 SVM 以及其他分类算法。 【参考方案1】:

Mallet 是另一个值得研究的很棒的库。它有很好的命令行工具来帮助您入门,并且一旦您开始将它与系统的其余部分集成,它还有一个 Java API。

【讨论】:

【参考方案2】:

我对 SVM 了解不多,但 LingPipe 可能对你很有帮助。 link 是专门关于文档分类(自动或引导)的教程。

此外,请查看相互关联的搜索产品 Lucene(搜索库)、Solr(搜索服务器应用程序)和 Carrot2(用于“聚类”搜索结果)。在那个空间里应该有一些有趣的工作适合你。

【讨论】:

以上是关于java中的文本分类库的主要内容,如果未能解决你的问题,请参考以下文章

在java中使用朴素贝叶斯(weka)进行简单的文本分类

如何使用 sklearn 库使用朴素贝叶斯执行文本分类?

FastText:自然语言处理的利器——一个快速文本表示和分类库

白话自然语言处理(2)——文本分类

如何评估我自己的文本分类器

在 Java 中构建/运行流式 Weka 文本分类器