spark.sql.shuffle.partitions 到底指的是啥?

Posted

技术标签:

【中文标题】spark.sql.shuffle.partitions 到底指的是啥?【英文标题】:What does spark.sql.shuffle.partitions exactly refer to?spark.sql.shuffle.partitions 到底指的是什么? 【发布时间】:2018-09-24 07:28:45 【问题描述】:

spark.sql.shuffle.partitions 到底指的是什么?我们是在谈论作为宽转换结果的分区数量,还是在中间发生的事情,例如在宽转换的结果分区之前的某种中间分区?

因为据我了解,根据我们的广泛转型

Parents RDDs -> shuffle files -> Child RDDs

spark.sql.shuffle.partitions 参数在这里指的是什么? shuffles filesCHILD RDDs 还是我忽略的其他内容?

【问题讨论】:

【参考方案1】:

这在the official docs中已经解释过了:

spark.sql.shuffle.partitions200 配置在为联接或聚合打乱数据时要使用的分区数。

换句话说就是子Dataset的分区数。

【讨论】:

我不确定自己要不要“换句话说”,我只是想确认一下”谢谢

以上是关于spark.sql.shuffle.partitions 到底指的是啥?的主要内容,如果未能解决你的问题,请参考以下文章