在 hadoop 多节点集群上运行 mahout kmeans

Posted

技术标签:

【中文标题】在 hadoop 多节点集群上运行 mahout kmeans【英文标题】:Running mahout kmeans on hadoop multi node cluster 【发布时间】:2012-09-12 14:16:19 【问题描述】:

我在多节点集群上运行 kmeans。输入大小约为 100mb,我已经修改了这样的 bin/mahout 文件

.

.

.

MAHOUT_OPTS="$MAHOUT_OPTS -Dmapred.min.split.size=10MB"

.

.

MAHOUT_OPTS="$MAHOUT_OPTS -Dmapred.map.tasks=10"

在每次迭代中我得到

12/09/12 17:05:02 INFO mapred.JobClient: Launched map tasks=1

12/09/12 17:05:02 INFO mapred.JobClient: 启动reduce tasks=6

12/09/12 17:05:02 INFO mapred.JobClient: Data-local map tasks=1

这是否意味着它在单节点而不是多节点上运行?如果是这样,我在配置中错过了什么?

【问题讨论】:

【参考方案1】:

如果你想要更多的分割,当然你想设置最大分割大小而不是最小。它仍然只是对集群的一个建议。

【讨论】:

以上是关于在 hadoop 多节点集群上运行 mahout kmeans的主要内容,如果未能解决你的问题,请参考以下文章

mahout demo——本质上是基于Hadoop的分步式算法实现,比如多节点的数据合并,数据排序,网路通信的效率,节点宕机重算,数据分步式存储

安装HBase后,HMaster进程无法在hadoop多节点集群上运行。

使用 mahout 和 hadoop jar 运行 K-means 集群时出现 IO 异常 [关闭]

1.如何在虚拟机ubuntu上安装hadoop多节点分布式集群

Hadoop、Mahout 实时处理替代方案

无法让 pyspark 作业在 hadoop 集群的所有节点上运行