蜂巢 - 如何每天自动将数据附加到蜂巢表?
Posted
技术标签:
【中文标题】蜂巢 - 如何每天自动将数据附加到蜂巢表?【英文标题】:hive - how to automatically append data to hive table every day? 【发布时间】:2020-03-12 12:17:27 【问题描述】:我在 HDFS 中有一个目录,其中具有固定结构和列名的 .csv
文件将在每天结束时转储,可能如下所示:
我有一个配置单元表,应该在每天开始时附加新数据,其中数据来自前一天的.csv
文件的.csv
。我如何做到这一点。
【问题讨论】:
【参考方案1】:我可以建议使用 CRON Jobs。您创建一个更新表的脚本,并配置一个 CRON 作业以在一天中的特定时间(对于您的情况是一天的开始)执行该脚本,然后表将自动更新。
PS:此解决方案仅适用于您的服务器在生产中,我的意思是 CRON 作业应在 24/24 运行的服务器中使用,否则,您应该使用 Anacron。
【讨论】:
【参考方案2】:在 HDFS 中该目录的顶部构建 Hive 表。将新文件转储到表位置后,从该表中选择将选择新文件。我建议更改转储文件以写入日期子文件夹并按日期创建分区表的过程。在此之后,您只需在选择表之前运行recover partitions command。
【讨论】:
以上是关于蜂巢 - 如何每天自动将数据附加到蜂巢表?的主要内容,如果未能解决你的问题,请参考以下文章