text Pyspark数据帧重新分区

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了text Pyspark数据帧重新分区相关的知识,希望对你有一定的参考价值。

参考链接: https://hackernoon.com/managing-spark-partitions-with-coalesce-and-repartition-4050c57ad5c4

首先, repartition这个操作有两种:

- 在rdd上的repartition
- 在dataframe的repartition

对于pyspark而言, 任何rdd的操作都是不推荐的, 因为会collect到driver端使用python的方法进行操作, 效率极低.
对于dataframe而言, 推荐使用coalesce来代替repartition, 以避免完全的shuffle.

coalesce的原理是先本地合并, 然后再进行shuffle, 尽量减少shuffle量.

以上是关于text Pyspark数据帧重新分区的主要内容,如果未能解决你的问题,请参考以下文章