哪个是最好的文档聚类开源包?
Posted
技术标签:
【中文标题】哪个是最好的文档聚类开源包?【英文标题】:Which is the best document clustering open-source package? 【发布时间】:2011-12-06 20:33:31 【问题描述】:哪个开源软件包最适合集群大量文档?它应该自己决定集群的数量,或者它也可以接受它作为参数。
我们拥有大量并非真正围绕特定主题的文档 - 它们是销售和管理人员针对组织中的各种项目和客户制作的文档。我知道拥有如此广泛的语料库会降低性能,但我们正在努力做到最好。现在,我们能得到的最好的东西是什么:-)
【问题讨论】:
【参考方案1】:来自该领域专家主页的主题建模软件列表: http://www.cs.princeton.edu/~blei/topicmodeling.html
竞争领导小组(开源代码):http://nlp.stanford.edu/software/tmt/tmt-0.3/
另一个开源java项目: http://mallet.cs.umass.edu/topics.php
【讨论】:
嗨,在此期间发生了巨大变化吗?我发现了这个很酷的工具:code.google.com/p/maui-indexer以上是关于哪个是最好的文档聚类开源包?的主要内容,如果未能解决你的问题,请参考以下文章