Pyspark OLD 数据框分区到新数据框

Posted 2023-04-15

技术标签:

【中文标题】Pyspark OLD 数据框分区到新数据框【英文标题】：Pyspark OLD dataframe partition to New Dataframe 【发布时间】：2016-11-11 20:13:07 【问题描述】：

我有一个分区数据框，比如 df1。从 df1 我将创建 df2 和 df3..

 df1 = df1.withColumn("key", concat("col1", "col2", "col3"))
 df1 =df1.repartition(400, "key")    

 df2 = df.groupBy("col1", "col2").agg(sum(colx))
 df3 = df1.join(df2, ["col1", "col2"])

我想知道 df3 是否会保留与 df1 相同的分区？还是我需要重新分区 df3？。

【问题讨论】：

【参考方案1】：

df3 的分区与 df1 完全不同。并且（可能）df2 将具有spark.sql.shuffle.partitions（默认值：200）分区数，而不是 400。

【讨论】：

谢谢.. 对不起，我认为这是直接的答案.. 现在我已经更新了我的例子，你能告诉我现在也一样吗？ .因为我的键和分区列不同，分区号是400。使用 df3 的更新代码分区与 df1 完全不同。并且（可能）df2 将有spark.sql.shuffle.partitions 分区数，而不是 400。

以上是关于Pyspark OLD 数据框分区到新数据框的主要内容，如果未能解决你的问题，请参考以下文章