Spark大数据处理TB级别海量数据的Shuffle成本（草稿）

Posted 2023-02-02 javartisan

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spark大数据处理TB级别海量数据的Shuffle成本（草稿）相关的知识，希望对你有一定的参考价值。

1：轻易不要shuffle，例如20万个小文件（文件大小100MB，spark一个文件一个分区）的想要进行缩减5-8万的分区轻易不要repartition，而是coalase 进行分区合并

以上是关于Spark大数据处理TB级别海量数据的Shuffle成本（草稿）的主要内容，如果未能解决你的问题，请参考以下文章