Hive相关优化
Posted 大数据_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hive相关优化相关的知识,希望对你有一定的参考价值。
Hive相关优化
1:首先模型设计能解决很大问题,
2:其次就是解决数据倾斜,减少job数,
3:设置合理的map task和reduce task数可以有效提高性能,
4:数据量较大的时候,尽量不要用count(distinct)(会产生数据倾斜),
5:对小文件进行合并,
6:hive优化主要在于数据倾斜造成的运行压力过大,数据量大不是负载的重点,因为Hadoop天生就是跑批的。
(Hadoop 分布式文件系统 (HDFS™):提供对应用程序数据的高吞吐量访问的分布式文件系统。)
以上是关于Hive相关优化的主要内容,如果未能解决你的问题,请参考以下文章
Hive数仓项目之sqoop相关操作访问咨询主题看板_全量流程