Hadoop学习之路(十八)MapReduce框架Combiner分区

Posted 扎心了,老铁

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop学习之路(十八)MapReduce框架Combiner分区相关的知识,希望对你有一定的参考价值。

对combiner的理解

combiner其实属于优化方案,由于带宽限制,应该尽量map和reduce之间的数据传输数量。它在Map端把同一个key的键值对合并在一起并计算,计算规则与reduce一致,所以combiner也可以看作特殊的Reducer。

执行combiner操作要求开发者必须在程序中设置了combiner(程序中通过job.setCombinerClass(myCombine.class)自定义combiner操作)。

Combiner组件是用来做局部汇总的,就在mapTask中进行汇总;Reducer组件是用来做全局汇总的,最终的,最后一次汇总。

哪里使用combiner?

1,map输出数据根据分区排序完成后,在写入文件之前会执行一次combine操作(前提是作业中设置了这个操作);

2,如果map输出比较大,溢出文件个数大于3(此值可以通过属性min.num.spills.for.combine配置)时,在merge的过程(多个spill文件合并为一个大文件)中前还会执行combiner操作;

注意事项

不是每种作业都可以做combiner操作的,只有满足以下条件才可以:

1、Combiner 只能对 一个mapTask的中间结果进行汇总

2、如果想使用Reducer直接充当Combiner,那么必须满足: Reducer的输入和输出key-value类型是一致的。

1)处于两个不同节点的mapTask的结果不能combiner到一起

2)处于同一个节点的两个MapTask的结果不能否combiner到一起

3)求最大值、求最小值、求和、去重时可直接使用Reducer充当Combiner,但是求平均值时不能直接使用Reducer充当Combiner。

  原因:对2组值求平均值

  2 3 4 5 6 == 20 / 5 == 4


  4 5 6 == 15 / 3 == 5

  ***********************************************************************

  20+15 / 5+3 = 35 / 8


  4.5

 

以上是关于Hadoop学习之路(十八)MapReduce框架Combiner分区的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop学习之路(十九)MapReduce框架排序

Hadoop学习之路(十七)MapReduce框架Partitoner分区

Hadoop基础(十八):MapReduce框架原理切片机制

Hadoop学习之路(二十三)MapReduce中的shuffle详解

Hadoop学习之路(十五)MapReduce的多Job串联和全局计数器

Hadoop学习之路MapReduce自定义排序