插入 Impala 表与写入 HDFS

Posted 2023-03-22

技术标签:

【中文标题】插入 Impala 表与写入 HDFS【英文标题】：Insert into Impala table vs write to HDFS 【发布时间】：2017-07-30 08:14:19 【问题描述】：

我有大约 1 万条记录（在 Java 中存储为 ArrayList）。我想将这些记录插入到 Impala。

我应该使用insert into table partition values 直接插入到impala。（不知道一条sql语句可以插入多少条记录。）

或者我应该将这些记录写入 HDFS 然后alter impala 表？

首选哪种方式？或者有没有其他解决方案？

如果我每 5 分钟执行一次，如何避免一个分区（按小时分区）中出现这么多小文件？这些会在每个分区产生12个小文件，会不会影响查询速度？

【问题讨论】：

【参考方案1】：

你能做的最好的就是：

在 impala 中创建表作为与 HDFS 路由关联的外部表直接在 HDFS 中进行插入，如果可能的话，每天，每小时可能很少执行 invalidate metada $ TABLE_NAME 命令，使数据可见

希望答案对你有用

问候！

【讨论】：

以上是关于插入 Impala 表与写入 HDFS的主要内容，如果未能解决你的问题，请参考以下文章