Hive分区的作用

Posted 2023-03-17

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hive分区的作用相关的知识，希望对你有一定的参考价值。

参考技术A

如果没有分区的存在，那么每次查询Hive将会进行全表扫描。对于小数据量的表来说，全表扫描并不会慢到无法忍受，但是对于大数据量来讲，比如几年的数据，每次查询都要扫描几年的所有数据，除了浪费时间之外，还浪费集群资源。为了改进这一问题，分区的价值就体现出来了。对于几年的数据，在设计Hive表的时候，可以将时间设计为分区字段，至于时间维度细到怎样的颗粒度，以业务需求为准。就这样，分区的存在，极大的缩小了数据的查询范围，比如以天为单位的分区字段,在查询2020年3月份的相关数据时，只需限制分区字段的时间在2020-03-01~2020-03-31之间，Hive就会根据分区字段条件直接找到几年数据中归属2020年3月份的数据，然后在对2020年3月份的数据根据具体的逻辑进行处理即可，而不需要几年的数据全部都扫描一次。

区别：
1.静态分区是需要指定分区的（源数据中没有）
2.动态分区是利用数据中的字段坐分区的，（源数据中有的），🈲 主分区动态分区，次分区静态分区，使得每个主分区下面都要创建静态分区
不难看出，Hive分区，主要是以缩小数据查询范围，提高查询速度和性能的。

Hive的静态分区，实际上就是手动指定分区的值为静态值，这种对于小批量的分区插入比较友好

语句中partition(year=“2020”, month=“04”, day=“2020-04-10”, hour=“22”) 的年月日小时手动指定了具体的值，这样的分区就叫静态分区了，是不是很简单？

Hive的动态分区，其实就是把静态分区中的分区值设置为动态的值，就可以了，来看看动态分区相关的HQL

语句中partition(year=year, month=month, day=day, hour=hour)会根据具体值的变化而变化，无需手动指定，这对于大批量的分区插入是一个很方便的用法，但需要根据业务需求衡量分区数量是否合理的问题。毕竟分区会占用IO资源，数量越多，IO资源消耗越大，查询时间和性能都是有所损耗的。

在创建动态分区时，经常遇到自动插入分区失败的问题，通过日志分析，可以知道，一种是没有开启动态分区模式，一种是严格模式导致的动态分区插入失败，一种是默认分区数量不足导致的分区插入失败。我们来了解一下，与动态分区相关的一些参数，以便更好的使用。

-- Hive默认配置值
-- 开启或关闭动态分区
hive.exec.dynamic.partition=false;
-- 设置为nonstrict模式，让所有分区都动态配置，否则至少需要指定一个分区值
hive.exec.dynamic.partition.mode=strict;
-- 能被mapper或reducer创建的最大动态分区数，超出而报错
hive.exec.max.dynamic.partitions.pernode=100;
-- 一条带有动态分区SQL语句所能创建的最大动态分区总数，超过则报错
hive.exec.max.dynamic.partitions=1000;
-- 全局能被创建文件数目的最大值，通过Hadoop计数器跟踪，若超过则报错
hive.exec.max.created.files=100000;

当你想每天执行某个时间段的分区数据插入，可以考虑一下动静分区结合方式，来看看HQL如何写？

以上是关于Hive分区的作用的主要内容，如果未能解决你的问题，请参考以下文章