spark.sql.shuffle.partitions 到底指的是啥?
Posted
技术标签:
【中文标题】spark.sql.shuffle.partitions 到底指的是啥?【英文标题】:What does spark.sql.shuffle.partitions exactly refer to?spark.sql.shuffle.partitions 到底指的是什么? 【发布时间】:2018-09-24 07:28:45 【问题描述】:spark.sql.shuffle.partitions
到底指的是什么?我们是在谈论作为宽转换结果的分区数量,还是在中间发生的事情,例如在宽转换的结果分区之前的某种中间分区?
因为据我了解,根据我们的广泛转型
Parents RDDs -> shuffle files -> Child RDDs
spark.sql.shuffle.partitions 参数在这里指的是什么? shuffles files 或 CHILD RDDs 还是我忽略的其他内容?
【问题讨论】:
【参考方案1】:这在the official docs中已经解释过了:
spark.sql.shuffle.partitions
200 配置在为联接或聚合打乱数据时要使用的分区数。
换句话说就是子Dataset
的分区数。
【讨论】:
我不确定自己要不要“换句话说”,我只是想确认一下”谢谢以上是关于spark.sql.shuffle.partitions 到底指的是啥?的主要内容,如果未能解决你的问题,请参考以下文章