Hive Sql/ Spark Sql 数据倾斜优化方案

Posted MISAYAONE

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hive Sql/ Spark Sql 数据倾斜优化方案相关的知识,希望对你有一定的参考价值。

(260条消息) spark sql 数据倾斜案例实操_苏苏爱自由-CSDN博客_spark sql 数据倾斜

3、Hive-sql优化,数据倾斜处理 - abc十号 - 博客园 (cnblogs.com)

Hive数据倾斜问题总结 - 云+社区 - 腾讯云 (tencent.com)

参数上的优化:

1:调大内存

2:增加partition数、reduce个数

3:开启负载均衡参数:hive.skew=true

4:map join 、broadcast join

5:过滤空值异常值

6:hive中使用sum groupby 替代count distinct

实际案例,其实都是分几步走:

1:算出倾斜的key有哪几个?

2:对倾斜的key做加随机前缀处理

3:对另一张表的这个key按前缀范围膨胀数据

4:join之后再union数据

以上是关于Hive Sql/ Spark Sql 数据倾斜优化方案的主要内容,如果未能解决你的问题,请参考以下文章

Hive的面试题总结

3Hive-sql优化,数据倾斜处理

3Hive-sql优化,数据倾斜处理

Hive基础

HIVE SQL 优化之数据倾斜

Hive SQL使用Skewed方式建表解决数据倾斜小记