如何优化mapreduce job的运行效率

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何优化mapreduce job的运行效率相关的知识,希望对你有一定的参考价值。

MapReduce程序的优化主要集中在两个方面:一个是运算性能方面的优化;另一个是IO操作方面的优化。
具体体现在以下的几个环节之上:
1. 任务调度
a. 尽量选择空闲节点进行计算
b. 尽量把任务分配给InputSplit所在机器
2. 数据预处理与InputSplit的大小
尽量处理少量的大数据;而不是大量的小数据。因此可以在处理前对数据进行一次预处理,将数据进行合并。
如果自己懒得合并,可以参考使用CombineFileInputFormat函数。具体用法请查阅相关函数手册。
3. Map和Reduce任务的数量
Map任务槽中任务的数量需要参考Map的运行时间,而Reduce任务的数量则只需要参考Map槽中的任务数,一般是0.95或1.75倍。
4. 使用Combine函数
该函数用于合并本地的数据,可以大大减少网络消耗。具体请参考函数手册。
5. 压缩
可以对一些中间数据进行压缩处理,达到减少网络消耗的目的。
6. 自定义comparator
可以自定义数据类型实现更复杂的目的。
参考技术A Job的运行过程中会有一系列的sort 的操作,并且reduce input groups的counter变量的值远远要小于reduce input records counter。
Job在mapper完成以后,shuffle过程中传输了大量的中间结果文件(例如:每个slave上的map output bytes都好几个GB)
在job 的webui上的counter中看到,job的spilled records的数量远远要大于map output records的数量。
如果job的算法中涉及到许多的排序操作,可以尝试写一个Combiner来提高job性能。hadoop的mapreduce框架中提供了Combiner来减少中间结果对磁盘的写入和减少中间结果在mapper和reducer之间的传输,通常这两个方面都是非常影响作业性能的两个方面。
性能对比:
修改wordcount程序,将setCombinerClass去掉,或者不去掉,两种方式对比运行。去掉的结果是,让每一个mapper的运行时间由原先的33s变成了平均48s,并且shuffle过程中的中间数据也由1G变成1.4GB,整个的job由原先的8分30秒变成了15分42秒,将近两倍了。而且,这个测试还是在enable了map的output 压缩的情况下进行的,如果disable这个特性,性能的影响可能会更加大。本回答被提问者和网友采纳

以上是关于如何优化mapreduce job的运行效率的主要内容,如果未能解决你的问题,请参考以下文章

如何获取hadoop mapreduce job运行信息

Hive优化总结

如何查看hadoop mapreduce 性能

Hive性能优化(全面)

[收藏]Hive性能优化(全面)

如何分布式运行mapreduce程序