在 hadoop 多节点集群上运行 mahout kmeans

Posted 2023-04-17

技术标签:

【中文标题】在 hadoop 多节点集群上运行 mahout kmeans【英文标题】：Running mahout kmeans on hadoop multi node cluster 【发布时间】：2012-09-12 14:16:19 【问题描述】：

我在多节点集群上运行 kmeans。输入大小约为 100mb，我已经修改了这样的 bin/mahout 文件

.

.

.

MAHOUT_OPTS="$MAHOUT_OPTS -Dmapred.min.split.size=10MB"

.

.

MAHOUT_OPTS="$MAHOUT_OPTS -Dmapred.map.tasks=10"

在每次迭代中我得到

12/09/12 17:05:02 INFO mapred.JobClient: Launched map tasks=1

12/09/12 17:05:02 INFO mapred.JobClient: 启动reduce tasks=6

12/09/12 17:05:02 INFO mapred.JobClient: Data-local map tasks=1

这是否意味着它在单节点而不是多节点上运行？如果是这样，我在配置中错过了什么？

【问题讨论】：

【参考方案1】：

如果你想要更多的分割，当然你想设置最大分割大小而不是最小。它仍然只是对集群的一个建议。

【讨论】：

以上是关于在 hadoop 多节点集群上运行 mahout kmeans的主要内容，如果未能解决你的问题，请参考以下文章

mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储

安装HBase后，HMaster进程无法在hadoop多节点集群上运行。

使用 mahout 和 hadoop jar 运行 K-means 集群时出现 IO 异常 [关闭]

1.如何在虚拟机ubuntu上安装hadoop多节点分布式集群

Hadoop、Mahout 实时处理替代方案

无法让 pyspark 作业在 hadoop 集群的所有节点上运行