将数据加载到 Hive/Impala
Posted
技术标签:
【中文标题】将数据加载到 Hive/Impala【英文标题】:Loading data into Hive/Impala 【发布时间】:2014-04-16 18:30:36 【问题描述】:将增量数据加载到 hive/impala 表中的最佳方法是什么?
我按照以下步骤操作,但未能成功。
MR 程序的输出已写入 HDFS 中的临时文件夹。 定义了指向临时文件夹(MR 的输出文件夹)的外部临时表 添加了从临时表到我的目标表的加载语句。 删除临时表和 HDFS 中的临时文件夹。当我按顺序运行 oozie 工作流程时,上述方法运行良好。当我同时调用多个作业时,它在加载数据时一直挂起。
我无法按顺序运行数据加载。任何有助于使其更有效的帮助,以便我可以运行将同时加载数据的并行作业。
【问题讨论】:
【参考方案1】:在我们的例子中,增量数据每次都会进入 Hive 表中的一个新分区。因此,在第 3 步(在上述步骤中),我们只需向表中添加一个新分区。
在多个工作流程并行工作的情况下,如果每个工作流程都将数据加载到新分区中,它应该可以正常工作。
【讨论】:
以上是关于将数据加载到 Hive/Impala的主要内容,如果未能解决你的问题,请参考以下文章
hbase+hive+impala 报gc overhead limit exceeded