Hive Sql/ Spark Sql 数据倾斜优化方案

Posted 2021-06-05 MISAYAONE

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hive Sql/ Spark Sql 数据倾斜优化方案相关的知识，希望对你有一定的参考价值。

(260条消息) spark sql 数据倾斜案例实操_苏苏爱自由-CSDN博客_spark sql 数据倾斜

3、Hive-sql优化，数据倾斜处理 - abc十号 - 博客园 (cnblogs.com)

Hive数据倾斜问题总结 - 云+社区 - 腾讯云 (tencent.com)

参数上的优化：

1：调大内存

2：增加partition数、reduce个数

3：开启负载均衡参数：hive.skew=true

4：map join 、broadcast join

5：过滤空值异常值

6：hive中使用sum groupby 替代count distinct

实际案例，其实都是分几步走：

1：算出倾斜的key有哪几个？

2：对倾斜的key做加随机前缀处理

3：对另一张表的这个key按前缀范围膨胀数据

4：join之后再union数据

以上是关于Hive Sql/ Spark Sql 数据倾斜优化方案的主要内容，如果未能解决你的问题，请参考以下文章

Hive的面试题总结

3Hive-sql优化，数据倾斜处理

3Hive-sql优化，数据倾斜处理

HIVE SQL 优化之数据倾斜

Hive SQL使用Skewed方式建表解决数据倾斜小记