Apache Mahout K-means 集群实现

Posted

技术标签:

【中文标题】Apache Mahout K-means 集群实现【英文标题】:Apache Mahout K-means clustering implementation 【发布时间】:2012-11-06 06:09:59 【问题描述】:

我试过 KmeansDriver 的 run() 函数,但我没有给出真实的参数。老实说,我不明白这个功能的实现。有没有一个关于使用矩阵、数据集或文件并给出聚类数据的明确示例?

我正在尝试使用 K-means 算法对稀疏矩阵进行聚类。我将使用 Apache mahout,但我没有找到任何关于如何使用 Java 实现它的示例。有没有关于它的教程或功能javadoc?

【问题讨论】:

【参考方案1】:

您可以查看“Mahout in Action”一书中的示例。例如,在第 7 章中有一个 minimal example - 代表 Mahout 0.5。或者您可以查看same example for Mahout 0.7。

【讨论】:

嗨,我使用了你的代码,但它对我不起作用example Mahout 0.7。它给了我一些 IOException DEBUG Configuration - java.io.IOException: config() 最后还有一个异常:Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-sadeckia\mapred\staging\myname-207333769\.staging to 0700。您是否已经遇到过这个问题? 这可能是 Windows 上 Hadoop 的问题 - 我没有这样的设置来检查问题所在... 好的,谢谢。我尝试安装 Cygwin 并将其添加到 Path 但仍然出现同样的错误。我将尝试在 UNIX 上启动它。 嗨,我终于成功使用了这段代码。现在,我有另一个问题,如何使它与 apache mahout 版本 0.9 一起工作? 这是一个很好的问题 - 0.7 和 0.9 之间有很多变化 - 我已经开始制作它们,但还没有完成(并且不能说什么时候会发生)

以上是关于Apache Mahout K-means 集群实现的主要内容,如果未能解决你的问题,请参考以下文章

使用 mahout 和 hadoop jar 运行 K-means 集群时出现 IO 异常 [关闭]

Mahout Java API 用于查找使用 k-means 生成的集群的质心

在 hadoop 集群上部署 Mahout

当我运行 Mahout 的 k-Means 时,总是显示这个提示

ClassCastException:org.apache.hadoop.io.Text 无法在 K-Means Clustering Mahout 中转换为 org.apache.hadoop.io

使用 Mahout 向量训练 Spark k-means