Hive 如何处理插入到内部分区表中?

Posted

技术标签:

【中文标题】Hive 如何处理插入到内部分区表中?【英文标题】:How does hive handle insert into internal partition table? 【发布时间】:2018-08-27 08:05:44 【问题描述】:

我需要将记录流插入 Hive 分区表。表结构类似于

CREATE TABLE store_transation (
     item_name string,
     item_count int,
     bill_number int,
) PARTITIONED BY (
   yyyy_mm_dd string
);

我想了解 Hive 如何处理内部表中的插入。

是否所有记录都插入到内部的单个文件中 yyyy_mm_dd=2018_08_31 目录?或者 hive 在一个分区内拆分成多个文件,如果是的话,什么时候?

如果每天有 100 万条记录并且查询模式将在日期范围之间,以下哪一个表现良好?

    内部表中没有分区 按日期分区,每个日期只有一个文件 按日期分区,每个日期有多个文件

【问题讨论】:

【参考方案1】:

Insert 在所有情况下都会执行相同的操作,因为 insert 不会查询您现有的数据(除非您使用 select from 自身进行插入),并且通常每个容器都会创建自己的文件,除非配置了文件合并。

如果表按日期分区,使用日期范围查询数据会更好。文件过多可能会导致性能下降,因此您可能希望在插入期间合并文件。什么是文件太多?就像每天分区数百甚至数千。每个分区的文件很少不会导致性能问题,您不需要合并它们。

Insert 语句将在分区目录中创建附加文件,并且通常不会与现有文件合并。将创建多少个文件取决于插入语句和配置设置。

最终运行的映射器或减速器的数量+配置设置将决定输出文件的数量。您可以强制它在单个减速器上运行,例如,添加“order by”子句。在这种情况下,每个分区将创建一个额外的文件,但它会运行缓慢。 distribute by partition key 也可用于减少创建的文件数量,但这会触发额外的减速器阶段,并且会比仅映射任务慢。

您还可以使用以下设置将新文件与现有文件合并:

SET hive.merge.mapfiles=true;
SET hive.merge.mapredfiles=true;
SET hive.merge.size.per.task=128000000; -- (128MB)
SET hive.merge.smallfiles.avgsize=128000000; -- (128MB)

这些配置设置最后可能会触发合并任务(取决于上述设置中配置的大小),它将合并现有文件以及插入新添加的文件。

有关合并的更多详细信息,请参阅此答案:https://***.com/a/45266244/2700344

实际上,在这种情况下,表的类型(托管的或外部的)并不重要。插入或选择的工作方式相同。

如果您已经有与目标表格式相同的文件,那么最快的方法是将它们放在分区目录中,而根本不使用 DML 查询。

对于 ORC 文件,您可以使用以下命令有效地合并文件:ALTER TABLE T [PARTITION partition_spec] CONCATENATE;

【讨论】:

以上是关于Hive 如何处理插入到内部分区表中?的主要内容,如果未能解决你的问题,请参考以下文章

大数据之Hive:hive的小文件如何处理

Hive如何处理大量小文件

Apache spark如何计算分区以及在executor中如何处理分区

磁盘上没有足够空间完成此操作,求教如何处理?

如果列数不同,如何处理从源 spark df 到 hive 表的插入

Hive:如何处理数据文件中有分隔符的文件?