hadoop reducer 是不是有输入超时？

Posted 2023-02-16

技术标签:

【中文标题】hadoop reducer 是不是有输入超时？【英文标题】：Does hadoop reducer have a timeout for inputs?hadoop reducer 是否有输入超时？ 【发布时间】：2012-12-28 23:59:36 【问题描述】：

我有一个 hadoop 作业，我试图在 8 节点 Windows HDP 集群上运行。该作业有超过 137000 个输入，它在大约 3.5 小时内处理了 84% 到 92% 的地图任务。然后 reducer 在 0% 处重新启动，并且 map 任务重新运行。这项工作永远不会完成。

我的问题是，reducer 从 dfs 读取 map 输出或块是否有超时导致 reducer 重新启动？或者，如果减速器达到某种限制，它会产生一条错误消息，帮助我确定原因。我的第一个障碍是默认队列只允许 100000 个任务，但作业出错并显示这样的消息。

我正在使用的 hadoop 版本是您使用 Microsoft HDInsight 获得的版本。它似乎是 windows 的 hadoop 1.1.0 快照（Hortonworks Data Platform 1.0.1 Developer Preview for Windows）。我设置属性为客户端任务提供 8000mb 的内存。由于 jobtracker 是从 Windows 服务启动的，因此我无法确定 VM 实际启动时使用了多少内存。

【问题讨论】：

什么版本的 Hadoop？ JobTracker 有多少内存？这是一个错误，我只是找不到它的 jira 问题。 【参考方案1】：

你在地图任务中使用了计数器吗？您的地图任务占用大量 CPU 资源吗？如果是，您需要使用计数器来确保 Hadoop 不会认为您的工作正在挂起，而是正在处理。

【讨论】：

以上是关于hadoop reducer 是不是有输入超时？的主要内容，如果未能解决你的问题，请参考以下文章

大数据： Hadoop reduce阶段

hadoop 多文件夹输入，map到reduce怎样排序

hadoop mapreduce 进程都有哪些

执行查询时，hive 是不是运行 hadoop？

Hadoop Map/Reduce

R 是不是有与 Python 中的 reduce() 等价的东西？