spark性能优化：shuffle调优

Posted 2020-07-13 hdchenyue

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了spark性能优化：shuffle调优相关的知识，希望对你有一定的参考价值。

调优概述

大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因此大家务必把握住调优的基本原则，千万不要舍本逐末。下面我们就给大家详细讲解shuffle的原理，以及相关参数的说明，同时给出各个参数的调优建议。

ShuffleManager发展概述

在Spark的源码中，负责shuffle过程的执行、计算和处理的组件主要就是ShuffleManager，也即shuffle管理器。而随着Spark的版本的发展，ShuffleManager也在不断迭代，变得越来越先进。

　　在Spark 1.2以前，默认的shuffle计算引擎是HashShuffleManager。该ShuffleManager而HashShuffleManager有着一个非常严重的弊端，就是会产生大量的中间磁盘文件，进而由大量的磁盘IO操作影响了性能。

　　因此在Spark 1.2以后的版本中，默认的ShuffleManager改成了SortShuffleManager。SortShuffleManager相较于HashShuffleManager来说，有了一定的改进。主要就在于，每个Task在进行shuffle操作时，虽然也会产生较多的临时磁盘文件，但是最后会将所有的临时文件合并（merge）成一个磁盘文件，因此每个Task就只有一个磁盘文件。在下一个stage的shuffle read task拉取自己的数据时，只要根据索引读取每个磁盘文件中的部分数据即可。

　　下面我们详细分析一下HashShuffleManager和SortShuffleManager的原理。

以上是关于spark性能优化：shuffle调优的主要内容，如果未能解决你的问题，请参考以下文章

Spark性能优化指南--基础篇

转载 Spark性能优化指南——基础篇

万字宝典 |《 Spark性能优化全书》推荐收藏！

Spark性能优化指南——高级篇

王家林谈Spark性能优化第六季

Spark性能优化指南——高级篇