Apache Mahout K-means 集群实现
Posted
技术标签:
【中文标题】Apache Mahout K-means 集群实现【英文标题】:Apache Mahout K-means clustering implementation 【发布时间】:2012-11-06 06:09:59 【问题描述】:我试过 KmeansDriver 的 run() 函数,但我没有给出真实的参数。老实说,我不明白这个功能的实现。有没有一个关于使用矩阵、数据集或文件并给出聚类数据的明确示例?
我正在尝试使用 K-means 算法对稀疏矩阵进行聚类。我将使用 Apache mahout,但我没有找到任何关于如何使用 Java 实现它的示例。有没有关于它的教程或功能javadoc?
【问题讨论】:
【参考方案1】:您可以查看“Mahout in Action”一书中的示例。例如,在第 7 章中有一个 minimal example - 代表 Mahout 0.5。或者您可以查看same example for Mahout 0.7。
【讨论】:
嗨,我使用了你的代码,但它对我不起作用example Mahout 0.7。它给了我一些 IOExceptionDEBUG Configuration - java.io.IOException: config()
最后还有一个异常:Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-sadeckia\mapred\staging\myname-207333769\.staging to 0700
。您是否已经遇到过这个问题?
这可能是 Windows 上 Hadoop 的问题 - 我没有这样的设置来检查问题所在...
好的,谢谢。我尝试安装 Cygwin 并将其添加到 Path
但仍然出现同样的错误。我将尝试在 UNIX 上启动它。
嗨,我终于成功使用了这段代码。现在,我有另一个问题,如何使它与 apache mahout 版本 0.9 一起工作?
这是一个很好的问题 - 0.7 和 0.9 之间有很多变化 - 我已经开始制作它们,但还没有完成(并且不能说什么时候会发生)
以上是关于Apache Mahout K-means 集群实现的主要内容,如果未能解决你的问题,请参考以下文章
使用 mahout 和 hadoop jar 运行 K-means 集群时出现 IO 异常 [关闭]
Mahout Java API 用于查找使用 k-means 生成的集群的质心
当我运行 Mahout 的 k-Means 时,总是显示这个提示
ClassCastException:org.apache.hadoop.io.Text 无法在 K-Means Clustering Mahout 中转换为 org.apache.hadoop.io