等效于 mongo 的 out:reduce 选项在 hadoop
Posted
技术标签:
【中文标题】等效于 mongo 的 out:reduce 选项在 hadoop【英文标题】:Equivalent of mongo's out:reduce option in hadoop 【发布时间】:2012-07-09 16:20:26 【问题描述】:我正在重写一个 MongoDB map reduce 作业以改用 Hadoop(使用 mongo-hadoop 连接器),但是当我将两个数据集映射到同一个集合时,它会覆盖值而不是使用它们
reduce : "collectionName" - 如果结果集中和旧集合中的给定键存在文档,则将对这两个值执行 reduce 操作(使用指定的 reduce 函数)和结果将被写入输出集合。如果提供了 finalize 函数,这也将在 reduce 之后运行。
如何使用 mongo-hadoop?
【问题讨论】:
【参考方案1】:Mongo-Hadoop 目前只支持覆盖目标集合。但是,可以将多个作业链接在一起,允许您将 MR 输出发送到一个新作业中,该作业也从旧集合中读取。
【讨论】:
某人如何连锁多个工作? 我研究了链接,但他们似乎只解释了如何将输出从最后一个作业直接传递到新作业,而不是将第一个作业和另一个集合的输出合并到新作业。 【参考方案2】:对于寻找此功能的其他人,即将支持多输入。
有更改的分支位于here。它做得很好,我们正在生产中使用它。
【讨论】:
以上是关于等效于 mongo 的 out:reduce 选项在 hadoop的主要内容,如果未能解决你的问题,请参考以下文章
什么是 Tools:itemCount 等效于 ExpandableListView?