hadoop map 中的全局值减少

Posted 2023-04-18

技术标签:

【中文标题】hadoop map 中的全局值减少【英文标题】：Global values in hadoop map reduce 【发布时间】：2013-03-18 22:38:46 【问题描述】：

我的用例涉及找出有缺陷的项目......假设我有一个产品列表，其中包含数百万个在 hdfs 中标记为好/有缺陷的项目......我想找出前 10 个匹配的有缺陷的项目，然后停止。

我正在考虑使用计数器来执行此操作，但看起来计数器都在任务跟踪器级别......所以每个任务跟踪器都维护它自己的计数器副本，在作业完成之前不会真正聚合。因此，如果另一个地图已经找到这 10 个项目，那么在一个拆分的地图作业中运行的计数器不会有任何想法。

知道如何解决这个问题吗？

【问题讨论】：

【参考方案1】：

在map任务中找到本地top 10的记录，发送给reducer。所以，如果有 7 个映射器，那么 reducer 将获得 70 条记录。 reducer 必须对这 70 条记录进行排序并发出全球前 10 条记录。 Here 是相同的代码。

请注意，这种方法仅适用于单个 reducer，而不适用于 1+ 个 reducer，这可能是一个瓶颈。而且，mapper之间没有通信，所以没有办法减轻reducer的负担。检查此papers，映射器可以使用全局数据相互交谈。 IBM BigInsights implements它。

查看this 博客条目以了解许多模式。

【讨论】：

谢谢普拉文。这真的很有帮助！【参考方案2】：

假设您使用的是 Hadoop，计数器也可以在全球范围内使用。

但是，我不明白使用 Map Reduce 解决这个问题的原因。

【讨论】：

欢迎来到 Stack Overflow！像这样的东西更适合作为评论，当你达到 50 声望时，你就可以发表评论了。

以上是关于hadoop map 中的全局值减少的主要内容，如果未能解决你的问题，请参考以下文章