大数据之Hive：Hive优化

Posted 2021-06-26 浊酒南街

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据之Hive：Hive优化相关的知识，希望对你有一定的参考价值。

1）MapJoin

join就是需要把两份数据关联起来，如果一份数据比较大（t1），一份比较小(t2)，可以采用mapjoin，具体实现：把t2的全部数据一次性加载，t1的数据一条条处理，这样就没有shuffle过程，不需要reduce，是相比于reducejoin的效率要高。适合大表和小表进行关联。
如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join，即：在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join，避免reducer处理。默认是打开的，不要关闭。

2）行列过滤

列处理：在SELECT中，只拿需要的列（因为在很多时候，我们存储数据的方式是基于列存储的），如果有，尽量使用分区过滤，少用SELECT *。
行处理：在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在Where后面，那么就会先全表关联，之后再过滤。

3）列式存储

4）采用分区技术

5）合理设置Map数

mapred.min.split.size: 指的是数据的最小分割单元大小；min的默认值是1B
mapred.max.split.size: 指的是数据的最大分割单元大小；max的默认值是256MB
通过调整max可以起到调整map数的作用，减小max可以增加map数，增大max可以减少map数。 max(0,min(块大小，Long的最大值))
需要提醒的是，直接调整mapred.map.tasks这个参数是没有效果的。
如果设置：
org.apache.hadoop.hive.ql.io.HiveInputFormat 上述参数是有效果的

6）合理设置Reduce数

Reduce个数并不是越多越好
（1）过多的启动和初始化Reduce也会消耗时间和资源；
（2）另外，有多少个Reduce，就会有多少个输出文件，如果生成了很多个小文件，那么如果这些小文件作为下一个任务的输入，则也会出现小文件过多的问题；
在设置Reduce个数的时候也需要考虑这两个原则：处理大数据量利用合适的Reduce数；使单个Reduce任务处理数据量大小要合适；

以上是关于大数据之Hive：Hive优化的主要内容，如果未能解决你的问题，请参考以下文章