将数据加载到 Hive/Impala

Posted

技术标签:

【中文标题】将数据加载到 Hive/Impala【英文标题】:Loading data into Hive/Impala 【发布时间】:2014-04-16 18:30:36 【问题描述】:

将增量数据加载到 hive/impala 表中的最佳方法是什么?

我按照以下步骤操作,但未能成功。

MR 程序的输出已写入 HDFS 中的临时文件夹。 定义了指向临时文件夹(MR 的输出文件夹)的外部临时表 添加了从临时表到我的目标表的加载语句。 删除临时表和 HDFS 中的临时文件夹。

当我按顺序运行 oozie 工作流程时,上述方法运行良好。当我同时调用多个作业时,它在加载数据时一直挂起。

我无法按顺序运行数据加载。任何有助于使其更有效的帮助,以便我可以运行将同时加载数据的并行作业。

【问题讨论】:

【参考方案1】:

在我们的例子中,增量数据每次都会进入 Hive 表中的一个新分区。因此,在第 3 步(在上述步骤中),我们只需向表中添加一个新分区。

在多个工作流程并行工作的情况下,如果每个工作流程都将数据加载到新分区中,它应该可以正常工作。

【讨论】:

以上是关于将数据加载到 Hive/Impala的主要内容,如果未能解决你的问题,请参考以下文章

Hive/Impala批量插入数据

hbase+hive+impala 报gc overhead limit exceeded

什么是 nvarchar 合适的数据类型,MYSQL 数据库位在 HIVE 中?

如何在Hive&Impala中使用UDF

Iceberg事务特性解读

在 hive/impala sql 中按日期获取数据,