如何在 Spark 中加速 leftouterjoin?
Posted
技术标签:
【中文标题】如何在 Spark 中加速 leftouterjoin?【英文标题】:How to accelerate leftouterjoin in Spark? 【发布时间】:2015-07-28 04:59:16 【问题描述】:如何在 spark 中加速 leftouterjoin 我在 Spark 中工作。 leftouterjoin 成为整个工作的瓶颈。 所以有必要对spark中的leftouterjoin进行优化。 它是 200 万条数据集记录之间的左外连接。 计算 leftouterjoin 需要 8 分钟 13
leftOuterJoin at :26 2015/07/28 04:38:16 8.3 分钟 7/7 152.7 MB 50.5 MB 278.5 MB
【问题讨论】:
【参考方案1】:您在 RDD 中使用过partitionBy
和persist
吗?
为了提高性能,我建议你应该使用partionby并坚持在左(左外连接)RDD。
示例代码:
val leftRDD = sc.textFile(//..).partitionBy(numPartitions).persist()
numPartitions
:取决于您的集群硬件。核心数(如果你有 4 核机器,那么选择numPartitions
= 8)
【讨论】:
以上是关于如何在 Spark 中加速 leftouterjoin?的主要内容,如果未能解决你的问题,请参考以下文章
如何使用许多小文件加速 Spark 的 parquet 阅读器