初学Mahout测试kmeans算法

Posted Chinda

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了初学Mahout测试kmeans算法相关的知识,希望对你有一定的参考价值。

预备工作:

启动hadoop集群

准备数据

Synthetic_control.data数据集下载地址
http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data

在集群中创建 /user/root/testdata 目录,必须是这个目录,不能改变,若是改变的话,得对应的去改变源码。

将准备好的数据上传到集群的/user/root/testdata下。

预备工作结束。

正式测试:

运行:[[email protected] apache-mahout-distribution-0.12.2]$ hadoop jar mahout-examples-0.12.2-job.jar  org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

查看测试结果:

将集群上面的测试结果下载到本地中进行预览。

运行:mahout seqdumper -i output/data/part-m-00000 -o /opt/data/testdata

testdata: 文件名,自动定义。不需要去目录中手动创建,自动生成。

 

以上是关于初学Mahout测试kmeans算法的主要内容,如果未能解决你的问题,请参考以下文章

Mahout KMeans 生成的簇数比我的初始 K 设置翻倍

如何用mapreduce分布式实现kmeans算法

在 hadoop 多节点集群上运行 mahout kmeans

mahout kmeans 聚类:显示错误

无法实例化类型集群,Mahout 中的 KMean 集群示例

将 kmeans 与 mahout 一起使用时忽略列