哪个是最好的文档聚类开源包?

Posted

技术标签:

【中文标题】哪个是最好的文档聚类开源包?【英文标题】:Which is the best document clustering open-source package? 【发布时间】:2011-12-06 20:33:31 【问题描述】:

哪个开源软件包最适合集群大量文档?它应该自己决定集群的数量,或者它也可以接受它作为参数。

我们拥有大量并非真正围绕特定主题的文档 - 它们是销售和管理人员针对组织中的各种项目和客户制作的文档。我知道拥有如此广泛的语料库会降低性能,但我们正在努力做到最好。现在,我们能得到的最好的东西是什么:-)

【问题讨论】:

【参考方案1】:

来自该领域专家主页的主题建模软件列表: http://www.cs.princeton.edu/~blei/topicmodeling.html

竞争领导小组(开源代码):http://nlp.stanford.edu/software/tmt/tmt-0.3/

另一个开源java项目: http://mallet.cs.umass.edu/topics.php

【讨论】:

嗨,在此期间发生了巨大变化吗?我发现了这个很酷的工具:code.google.com/p/maui-indexer

以上是关于哪个是最好的文档聚类开源包?的主要内容,如果未能解决你的问题,请参考以下文章

反应原生地图聚类

干货|机器学习:Python实现聚类算法之K-Means

福利机器学习:Python实现聚类算法之K-Means

opencv kmeans 聚类的输入矩阵

opencv kmeans 聚类的输入矩阵

谱聚类--SpectralClustering