MapReduce 开发总结

Posted 2021-10-10 ZSYL

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了MapReduce 开发总结相关的知识，希望对你有一定的参考价值。

1）输入数据接口：InputFormat

（1）默认使用的实现类是：TextInputFormat

（2）TextInputFormat 的功能逻辑是：一次读一行文本，然后将该行的起始偏移量作为key，行内容作为 value 返回。

（3）CombineTextInputFormat 可以把多个小文件合并成一个切片处理，提高处理效率。

用户根据业务需求实现其中三个方法：map() setup() cleanup ()

（1）有默认实现 HashPartitioner，逻辑是根据 key 的哈希值和 numReduces 来返回一个分区号；key.hashCode() & Integer.MAXVALUE % numReduces

（2）如果业务上有特别的需求，可以自定义分区。

（1）当我们用自定义的对象作为 key 来输出时，就必须要实现 WritableComparable 接口，重写其中的 compareTo()方法。

（2）部分排序：对最终输出的每一个文件进行内部排序。

（3）全排序：对所有数据进行排序，通常只有一个 Reduce。

（4）二次排序：排序的条件有两个。

Combiner合并可以提高程序执行效率，减少 IO 传输。但是使用时必须不能影响原有的业务处理结果。

用户根据业务需求实现其中三个方法：reduce() setup() cleanup ()

（1）默认实现类是 TextOutputFormat，功能逻辑是：将每一个 KV 对，向目标文本文件输出一行。

（2）用户还可以自定义 OutputFormat。

以上是关于MapReduce 开发总结的主要内容，如果未能解决你的问题，请参考以下文章