Spark - groupByKey over reduceByKey 的用例是啥
Posted
技术标签:
【中文标题】Spark - groupByKey over reduceByKey 的用例是啥【英文标题】:Spark - What are the usecase for groupByKey over reduceByKeySpark - groupByKey over reduceByKey 的用例是什么 【发布时间】:2020-07-29 16:03:35 【问题描述】:应该避免 groupByKey 并更喜欢 reduceByKey 发送优化网络带宽的理由很充分。
https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/prefer_reducebykey_over_groupbykey.html
是否存在 groupby 是真正需要而不能用 reduceByKey 解决的情况
【问题讨论】:
【参考方案1】:groupBy 更可取的一些用例。
“分组”项目不应以任何形式聚合,并且项目应按原样发送 - Replace groupByKey with reduceByKey in Spark 以及在非关联等操作中.. reduceByKey 不能使用。唯一的选择是 groupByKey【讨论】:
以上是关于Spark - groupByKey over reduceByKey 的用例是啥的主要内容,如果未能解决你的问题,请参考以下文章
Spark 中的 GroupByKey 函数有那么糟糕吗? [复制]