hadoop reducer 是不是有输入超时?

Posted

技术标签:

【中文标题】hadoop reducer 是不是有输入超时?【英文标题】:Does hadoop reducer have a timeout for inputs?hadoop reducer 是否有输入超时? 【发布时间】:2012-12-28 23:59:36 【问题描述】:

我有一个 hadoop 作业,我试图在 8 节点 Windows HDP 集群上运行。该作业有超过 137000 个输入,它在大约 3.5 小时内处理了 84% 到 92% 的地图任务。然后 reducer 在 0% 处重新启动,并且 map 任务重新运行。这项工作永远不会完成。

我的问题是,reducer 从 dfs 读取 map 输出或块是否有超时导致 reducer 重新启动?或者,如果减速器达到某种限制,它会产生一条错误消息,帮助我确定原因。我的第一个障碍是默认队列只允许 100000 个任务,但作业出错并显示这样的消息。

我正在使用的 hadoop 版本是您使用 Microsoft HDInsight 获得的版本。它似乎是 windows 的 hadoop 1.1.0 快照(Hortonworks Data Platform 1.0.1 Developer Preview for Windows)。我设置属性为客户端任务提供 8000mb 的内存。由于 jobtracker 是从 Windows 服务启动的,因此我无法确定 VM 实际启动时使用了多少内存。

【问题讨论】:

什么版本的 Hadoop? JobTracker 有多少内存? 这是一个错误,我只是找不到它的 jira 问题。 【参考方案1】:

你在地图任务中使用了计数器吗?您的地图任务占用大量 CPU 资源吗?如果是,您需要使用计数器来确保 Hadoop 不会认为您的工作正在挂起,而是正在处理。

【讨论】:

以上是关于hadoop reducer 是不是有输入超时?的主要内容,如果未能解决你的问题,请参考以下文章

大数据 : Hadoop reduce阶段

hadoop 多文件夹输入,map到reduce怎样排序

hadoop mapreduce 进程都有哪些

执行查询时,hive 是不是运行 hadoop?

Hadoop Map/Reduce

R 是不是有与 Python 中的 reduce() 等价的东西?