Hive相关优化

Posted 大数据_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hive相关优化相关的知识,希望对你有一定的参考价值。

Hive相关优化

1:首先模型设计能解决很大问题,
2:其次就是解决数据倾斜,减少job数,
3:设置合理的map task和reduce task数可以有效提高性能,
4:数据量较大的时候,尽量不要用count(distinct)(会产生数据倾斜),
5:对小文件进行合并,
6:hive优化主要在于数据倾斜造成的运行压力过大,数据量大不是负载的重点,因为Hadoop天生就是跑批的。
(Hadoop 分布式文件系统 (HDFS™):提供对应用程序数据的高吞吐量访问的分布式文件系统。)

以上是关于Hive相关优化的主要内容,如果未能解决你的问题,请参考以下文章

四.HIVE及其相关大数据组件

Hive数仓项目之基本优化方案学生出勤主题看板分析

hive: 优化配置

Hive数仓项目之sqoop相关操作访问咨询主题看板_全量流程

hive中估算map和reduce task个数的方法和参数设置相关

HDP Hive StorageHandler 下推优化的坑