Hive分区的作用
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hive分区的作用相关的知识,希望对你有一定的参考价值。
参考技术A如果没有分区的存在,那么每次查询Hive将会进行全表扫描。对于小数据量的表来说,全表扫描并不会慢到无法忍受,但是对于大数据量来讲,比如几年的数据,每次查询都要扫描几年的所有数据,除了浪费时间之外,还浪费集群资源。为了改进这一问题,分区的价值就体现出来了。对于几年的数据,在设计Hive表的时候,可以将时间设计为分区字段,至于时间维度细到怎样的颗粒度,以业务需求为准。就这样,分区的存在,极大的缩小了数据的查询范围,比如以天为单位的分区字段,在查询2020年3月份的相关数据时,只需限制分区字段的时间在2020-03-01~2020-03-31之间,Hive就会根据分区字段条件直接找到几年数据中归属2020年3月份的数据,然后在对2020年3月份的数据根据具体的逻辑进行处理即可,而不需要几年的数据全部都扫描一次。
区别:
1.静态分区是需要指定分区的(源数据中没有)
2.动态分区是利用数据中的字段坐分区的,(源数据中有的),🈲 主分区动态分区,次分区静态分区,使得每个主分区下面都要创建静态分区
不难看出,Hive分区,主要是以缩小数据查询范围,提高查询速度和性能的。
Hive的静态分区,实际上就是手动指定分区的值为静态值,这种对于小批量的分区插入比较友好
语句中partition(year=“2020”, month=“04”, day=“2020-04-10”, hour=“22”) 的年月日小时手动指定了具体的值,这样的分区就叫静态分区了,是不是很简单?
Hive的动态分区,其实就是把静态分区中的分区值设置为动态的值,就可以了,来看看动态分区相关的HQL
语句中partition(year=year, month=month, day=day, hour=hour)会根据具体值的变化而变化,无需手动指定,这对于大批量的分区插入是一个很方便的用法,但需要根据业务需求衡量分区数量是否合理的问题。毕竟分区会占用IO资源,数量越多,IO资源消耗越大,查询时间和性能都是有所损耗的。
在创建动态分区时,经常遇到自动插入分区失败的问题,通过日志分析,可以知道,一种是没有开启动态分区模式,一种是严格模式导致的动态分区插入失败,一种是默认分区数量不足导致的分区插入失败。我们来了解一下,与动态分区相关的一些参数,以便更好的使用。
-- Hive默认配置值
-- 开启或关闭动态分区
hive.exec.dynamic.partition=false;
-- 设置为nonstrict模式,让所有分区都动态配置,否则至少需要指定一个分区值
hive.exec.dynamic.partition.mode=strict;
-- 能被mapper或reducer创建的最大动态分区数,超出而报错
hive.exec.max.dynamic.partitions.pernode=100;
-- 一条带有动态分区SQL语句所能创建的最大动态分区总数,超过则报错
hive.exec.max.dynamic.partitions=1000;
-- 全局能被创建文件数目的最大值,通过Hadoop计数器跟踪,若超过则报错
hive.exec.max.created.files=100000;
当你想每天执行某个时间段的分区数据插入,可以考虑一下动静分区结合方式,来看看HQL如何写?
以上是关于Hive分区的作用的主要内容,如果未能解决你的问题,请参考以下文章