text Pyspark数据帧重新分区

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了text Pyspark数据帧重新分区相关的知识,希望对你有一定的参考价值。

参考链接: https://hackernoon.com/managing-spark-partitions-with-coalesce-and-repartition-4050c57ad5c4

首先, repartition这个操作有两种:

- 在rdd上的repartition
- 在dataframe的repartition

对于pyspark而言, 任何rdd的操作都是不推荐的, 因为会collect到driver端使用python的方法进行操作, 效率极低.
对于dataframe而言, 推荐使用coalesce来代替repartition, 以避免完全的shuffle.

coalesce的原理是先本地合并, 然后再进行shuffle, 尽量减少shuffle量.

以上是关于text Pyspark数据帧重新分区的主要内容,如果未能解决你的问题,请参考以下文章

重新分区 pyspark 数据帧失败以及如何避免初始分区大小

将 PySpark 数据帧写入分区 Hive 表

如何从 BigQuery 读取分区表到 Spark 数据帧(在 PySpark 中)

pyspark:在日期和时间上重新采样 pyspark 数据帧

PySpark - 分区中覆盖的数据

加入两个分区数据框pyspark