如何在 Spark 中加速 leftouterjoin?

Posted

技术标签:

【中文标题】如何在 Spark 中加速 leftouterjoin?【英文标题】:How to accelerate leftouterjoin in Spark? 【发布时间】:2015-07-28 04:59:16 【问题描述】:

如何在 spark 中加速 leftouterjoin 我在 Spark 中工作。 leftouterjoin 成为整个工作的瓶颈。 所以有必要对spark中的leftouterjoin进行优化。 它是 200 万条数据集记录之间的左外连接。 计算 leftouterjoin 需要 8 分钟 13

leftOuterJoin at :26 2015/07/28 04:38:16 8.3 分钟 7/7 152.7 MB 50.5 MB 278.5 MB

【问题讨论】:

【参考方案1】:

您在 RDD 中使用过partitionBypersist 吗?

为了提高性能,我建议你应该使用partionby并坚持在左(左外连接)RDD。

示例代码:

val leftRDD = sc.textFile(//..).partitionBy(numPartitions).persist()

numPartitions :取决于您的集群硬件。核心数(如果你有 4 核机器,那么选择numPartitions = 8)

【讨论】:

以上是关于如何在 Spark 中加速 leftouterjoin?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用许多小文件加速 Spark 的 parquet 阅读器

hive 或 impala 中的计算表统计信息如何加速 Spark SQL 中的查询?

Spark使用OSS Select加速数据查询

Spark ALS应用BLAS加速

Spark ALS应用BLAS加速

10月29日社区直播Spark Shuffle RPMem扩展: 借助持久内存与RDMA加速Spark 数据分析