在 hadoop 多节点集群上运行 mahout kmeans
Posted
技术标签:
【中文标题】在 hadoop 多节点集群上运行 mahout kmeans【英文标题】:Running mahout kmeans on hadoop multi node cluster 【发布时间】:2012-09-12 14:16:19 【问题描述】:我在多节点集群上运行 kmeans。输入大小约为 100mb,我已经修改了这样的 bin/mahout 文件
.
.
.
MAHOUT_OPTS="$MAHOUT_OPTS -Dmapred.min.split.size=10MB"
.
.
MAHOUT_OPTS="$MAHOUT_OPTS -Dmapred.map.tasks=10"
在每次迭代中我得到
12/09/12 17:05:02 INFO mapred.JobClient: Launched map tasks=1
12/09/12 17:05:02 INFO mapred.JobClient: 启动reduce tasks=6
12/09/12 17:05:02 INFO mapred.JobClient: Data-local map tasks=1
这是否意味着它在单节点而不是多节点上运行?如果是这样,我在配置中错过了什么?
【问题讨论】:
【参考方案1】:如果你想要更多的分割,当然你想设置最大分割大小而不是最小。它仍然只是对集群的一个建议。
【讨论】:
以上是关于在 hadoop 多节点集群上运行 mahout kmeans的主要内容,如果未能解决你的问题,请参考以下文章
mahout demo——本质上是基于Hadoop的分步式算法实现,比如多节点的数据合并,数据排序,网路通信的效率,节点宕机重算,数据分步式存储
安装HBase后,HMaster进程无法在hadoop多节点集群上运行。
使用 mahout 和 hadoop jar 运行 K-means 集群时出现 IO 异常 [关闭]