等效于 mongo 的 out:reduce 选项在 hadoop

Posted

技术标签:

【中文标题】等效于 mongo 的 out:reduce 选项在 hadoop【英文标题】:Equivalent of mongo's out:reduce option in hadoop 【发布时间】:2012-07-09 16:20:26 【问题描述】:

我正在重写一个 MongoDB map reduce 作业以改用 Hadoop(使用 mongo-hadoop 连接器),但是当我将两个数据集映射到同一个集合时,它会覆盖值而不是使用它们

reduce : "collectionName" - 如果结果集中和旧集合中的给定键存在文档,则将对这两个值执行 reduce 操作(使用指定的 reduce 函数)和结果将被写入输出集合。如果提供了 finalize 函数,这也将在 reduce 之后运行。

如何使用 mongo-hadoop?

【问题讨论】:

【参考方案1】:

Mongo-Hadoop 目前只支持覆盖目标集合。但是,可以将多个作业链接在一起,允许您将 MR 输出发送到一个新作业中,该作业也从旧集合中读取。

【讨论】:

某人如何连锁多个工作? 我研究了链接,但他们似乎只解释了如何将输出从最后一个作业直接传递到新作业,而不是将第一个作业和另一个集合的输出合并到新作业。 【参考方案2】:

对于寻找此功能的其他人,即将支持多输入。

有更改的分支位于here。它做得很好,我们正在生产中使用它。

【讨论】:

以上是关于等效于 mongo 的 out:reduce 选项在 hadoop的主要内容,如果未能解决你的问题,请参考以下文章

msbuild 中是不是有等效于 make -k 的选项?

iOS 等效于 Android 共享首选项

什么是 Tools:itemCount 等效于 ExpandableListView?

将所有数组元素的ISO日期转换为mongo 3.4(而不是3.6)中的等效JSON文档

等效于 Avalonia 的应用程序设置

等效于 Visual C++ 中 gcc 的 __attribute__ 格式