大数据之Hive:Hive优化

Posted 浊酒南街

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据之Hive:Hive优化相关的知识,希望对你有一定的参考价值。

1)MapJoin

join就是需要把两份数据关联起来,如果一份数据比较大(t1),一份比较小(t2),可以采用mapjoin,具体实现:把t2的全部数据一次性加载,t1的数据一条条处理,这样就没有shuffle过程,不需要reduce,是相比于reducejoin的效率要高。适合大表和小表进行关联。
如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join,避免reducer处理。默认是打开的,不要关闭。

2)行列过滤

列处理:在SELECT中,只拿需要的列(因为在很多时候,我们存储数据的方式是基于列存储的),如果有,尽量使用分区过滤,少用SELECT *。
行处理:在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在Where后面,那么就会先全表关联,之后再过滤。

3)列式存储

4)采用分区技术

5)合理设置Map数

mapred.min.split.size: 指的是数据的最小分割单元大小;min的默认值是1B
mapred.max.split.size: 指的是数据的最大分割单元大小;max的默认值是256MB
通过调整max可以起到调整map数的作用,减小max可以增加map数,增大max可以减少map数。 max(0,min(块大小,Long的最大值))
需要提醒的是,直接调整mapred.map.tasks这个参数是没有效果的。
如果设置:
org.apache.hadoop.hive.ql.io.HiveInputFormat 上述参数是有效果的

6)合理设置Reduce数

Reduce个数并不是越多越好
(1)过多的启动和初始化Reduce也会消耗时间和资源;
(2)另外,有多少个Reduce,就会有多少个输出文件,如果生成了很多个小文件,那么如果这些小文件作为下一个任务的输入,则也会出现小文件过多的问题;
在设置Reduce个数的时候也需要考虑这两个原则:处理大数据量利用合适的Reduce数;使单个Reduce任务处理数据量大小要合适;

以上是关于大数据之Hive:Hive优化的主要内容,如果未能解决你的问题,请参考以下文章

打怪升级之小白的大数据之旅(六十九)<Hive旅程第十站:Hive的优化>

打怪升级之小白的大数据之旅(六十九)<Hive旅程第十站:Hive的优化>

大数据之Hive:Hive调优全方位指南

大数据技术之_08_Hive学习_04_压缩和存储(Hive高级)+ 企业级调优(Hive优化)

大数据那些事:HIVE之初期起

大数据开发工程师Hive(Hive如何进行优化)