分布式文本聚类框架
Posted
技术标签:
【中文标题】分布式文本聚类框架【英文标题】:Distributed text clustering framework 【发布时间】:2012-06-21 22:03:33 【问题描述】:我需要一个来支持包含完整文档集的算法。像carrot2 http://project.carrot2.org/ 这样的应用程序在内存计算中处理一组文档,因此非常耗时且非常高效。如果像 lingo、STC、knn 等这种文本聚类算法可以在分布式环境中运行,它们会更快。 是否有使用 hazelcast http://www.hazelcast.com/ 等开源工具的任何框架,或者是否有任何更快速且性能更高效的特定方法。
【问题讨论】:
【参考方案1】:Apache Mahout 就是你要找的东西。
【讨论】:
感谢您的回答...是的,您是对的,但我想它在 Haadoop 上运行良好,而且我正在寻找一个更简单的解决方案,它可以在形成集群的 Windows 上运行并在分布式方式。【参考方案2】:很少有工具可以做到这一点,Mahout 就是其中之一。 Mahout 支持 3 种机器学习算法,推荐、聚类和分类。曼宁的Mahout in action一书很好地解释了这一点。参考博客中关于Mahout and Hadoop distributed file system works?的用例,该示例更侧重于推荐引擎,但它也可以应用于集群,如mahout in action一章所述7. 作为这方面的先驱,我还写了一篇Component architecture,介绍了这些工具如何组合在一起解决数据挖掘问题。
Mahout 可以在独立模式下工作,也可以与 Hadoop 一起工作。使用其中任何一个的决定归结为需要挖掘的历史数据的大小。如果数据大小为 TB 和 PB 量级,则通常将 Mahout 与 Hadoop 结合使用。 Weka 是另一个类似的开源项目。所有这些都属于称为机器学习框架的类别。希望对你有帮助。
【讨论】:
以上是关于分布式文本聚类框架的主要内容,如果未能解决你的问题,请参考以下文章