蜂巢 - 如何每天自动将数据附加到蜂巢表?

Posted

技术标签:

【中文标题】蜂巢 - 如何每天自动将数据附加到蜂巢表?【英文标题】:hive - how to automatically append data to hive table every day? 【发布时间】:2020-03-12 12:17:27 【问题描述】:

我在 HDFS 中有一个目录,其中具有固定结构和列名的 .csv 文件将在每天结束时转储,可能如下所示: 我有一个配置单元表,应该在每天开始时附加新数据,其中数据来自前一天的.csv 文件的.csv。我如何做到这一点。

【问题讨论】:

【参考方案1】:

我可以建议使用 CRON Jobs。您创建一个更新表的脚本,并配置一个 CRON 作业以在一天中的特定时间(对于您的情况是一天的开始)执行该脚本,然后表将自动更新。

PS:此解决方案仅适用于您的服务器在生产中,我的意思是 CRON 作业应在 24/24 运行的服务器中使用,否则,您应该使用 Anacron。

【讨论】:

【参考方案2】:

在 HDFS 中该目录的顶部构建 Hive 表。将新文件转储到表位置后,从该表中选择将选择新文件。我建议更改转储文件以写入日期子文件夹并按日期创建分区表的过程。在此之后,您只需在选择表之前运行recover partitions command。

【讨论】:

以上是关于蜂巢 - 如何每天自动将数据附加到蜂巢表?的主要内容,如果未能解决你的问题,请参考以下文章

蜂巢时间戳不接受 Spark 时间戳类型

将数据从蜂巢中取出并输入 mysql @ AWS?

哪个蜂巢表提供更好的性能?

蜂巢中的数据集大小是多少

蜂巢。动态分区并插入特定列

颤振:如何将蜂巢监视绑定到 getx 中的 RxList 对象