分布式文本聚类框架

Posted 2023-03-12

技术标签:

【中文标题】分布式文本聚类框架【英文标题】：Distributed text clustering framework 【发布时间】：2012-06-21 22:03:33 【问题描述】：

我需要一个来支持包含完整文档集的算法。像carrot2 http://project.carrot2.org/ 这样的应用程序在内存计算中处理一组文档，因此非常耗时且非常高效。如果像 lingo、STC、knn 等这种文本聚类算法可以在分布式环境中运行，它们会更快。是否有使用 hazelcast http://www.hazelcast.com/ 等开源工具的任何框架，或者是否有任何更快速且性能更高效的特定方法。

【问题讨论】：

【参考方案1】：

Apache Mahout 就是你要找的东西。

【讨论】：

感谢您的回答...是的，您是对的，但我想它在 Haadoop 上运行良好，而且我正在寻找一个更简单的解决方案，它可以在形成集群的 Windows 上运行并在分布式方式。【参考方案2】：

很少有工具可以做到这一点，Mahout 就是其中之一。 Mahout 支持 3 种机器学习算法，推荐、聚类和分类。曼宁的Mahout in action一书很好地解释了这一点。参考博客中关于Mahout and Hadoop distributed file system works?的用例，该示例更侧重于推荐引擎，但它也可以应用于集群，如mahout in action一章所述7. 作为这方面的先驱，我还写了一篇Component architecture，介绍了这些工具如何组合在一起解决数据挖掘问题。

Mahout 可以在独立模式下工作，也可以与 Hadoop 一起工作。使用其中任何一个的决定归结为需要挖掘的历史数据的大小。如果数据大小为 TB 和 PB 量级，则通常将 Mahout 与 Hadoop 结合使用。 Weka 是另一个类似的开源项目。所有这些都属于称为机器学习框架的类别。希望对你有帮助。

【讨论】：

以上是关于分布式文本聚类框架的主要内容，如果未能解决你的问题，请参考以下文章

技术文本聚类与分类

[转]python进行中文文本聚类（切词以及Kmeans聚类）