Spark - groupByKey over reduceByKey 的用例是啥

Posted

技术标签:

【中文标题】Spark - groupByKey over reduceByKey 的用例是啥【英文标题】:Spark - What are the usecase for groupByKey over reduceByKeySpark - groupByKey over reduceByKey 的用例是什么 【发布时间】:2020-07-29 16:03:35 【问题描述】:

应该避免 groupByKey 并更喜欢 reduceByKey 发送优化网络带宽的理由很充分。

https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/prefer_reducebykey_over_groupbykey.html

是否存在 groupby 是真正需要而不能用 reduceByKey 解决的情况

【问题讨论】:

【参考方案1】:

groupBy 更可取的一些用例。

“分组”项目不应以任何形式聚合,并且项目应按原样发送 - Replace groupByKey with reduceByKey in Spark 以及在非关联等操作中.. reduceByKey 不能使用。唯一的选择是 groupByKey

【讨论】:

以上是关于Spark - groupByKey over reduceByKey 的用例是啥的主要内容,如果未能解决你的问题,请参考以下文章

spark 例子groupByKey分组计算

Spark 中的 GroupByKey 函数有那么糟糕吗? [复制]

[Spark][Python]groupByKey例子

Spark 学习笔记之 distinct/groupByKey/reduceByKey

spark transform系列__groupByKey

groupByKey,reduceByKey,sortByKey算子-Java&Python版Spark