java中的文本分类库
Posted
技术标签:
【中文标题】java中的文本分类库【英文标题】:library for text classification in java 【发布时间】:2012-02-21 14:04:56 【问题描述】:我有一组分类的文本文件。我想对另一组大型文本文件进行分类以用于我的研究。有没有比较好的方法?
我认为基于 SVM 的方法很有用,但是否有使用此类算法的简单且文档化的库?
【问题讨论】:
Weka 有 SVM 以及其他分类算法。 【参考方案1】:Mallet 是另一个值得研究的很棒的库。它有很好的命令行工具来帮助您入门,并且一旦您开始将它与系统的其余部分集成,它还有一个 Java API。
【讨论】:
【参考方案2】:我对 SVM 了解不多,但 LingPipe 可能对你很有帮助。 link 是专门关于文档分类(自动或引导)的教程。
此外,请查看相互关联的搜索产品 Lucene(搜索库)、Solr(搜索服务器应用程序)和 Carrot2(用于“聚类”搜索结果)。在那个空间里应该有一些有趣的工作适合你。
【讨论】:
以上是关于java中的文本分类库的主要内容,如果未能解决你的问题,请参考以下文章