如何在每次上传桶时更新Big Query后端数据

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何在每次上传桶时更新Big Query后端数据相关的知识,希望对你有一定的参考价值。

我已经从我的云存储桶中的数据创建了Big Query。

在我的用例中,我定期将数据发送到同一个桶,这是我的Big Query的后端(在创建Big查询表时,我使用了相同的桶名)。

是否可以将更新的数据导入Big Query,因为我每次都会在某个时间间隔内将新数据推送到同一个存储桶中。

提一下 - 我正在从上面提到的专用存储桶中进行原生Big查询。

非常感谢您的帮助。提前致谢。

答案

您可以在Google云端存储分区上创建外部(联合)表格有详细信息https://cloud.google.com/bigquery/external-data-cloud-storage因此,在这种情况下,无论何时查询此表格,您都将获得最新数据。

如果您只需要根据来自存储桶的数据将数据附加到表(让它称为目标表) - 我可以想象以下过程:1。您在GCS存储桶上创建联合表2.您设置运行bq命令的简单cron作业从[federated_table]中选择*并将结果附加到目标表中(您可能有更复杂的查询,它将检查目标表中的数据重复仅附加新数据。

备选方案:您在桶上设置激活云功能https://cloud.google.com/functions/docs/calling/storage的触发器,在云功能中只需将新添加的数据加载到目标表

以上是关于如何在每次上传桶时更新Big Query后端数据的主要内容,如果未能解决你的问题,请参考以下文章

将对象上传到 S3 存储桶时如何触发 AWS Cloudformation 堆栈的更新?

Big Query-如何在 Big Query 中按浏览量、用户每周比较数据

如何将 .gz 文件上传到 Google Big Query?

将文件从 Google Cloud 自动上传到 Big Query

Big Query 追加新行

如何使用通配符表语法(如 _TABLE_SUFFIX)加入 INFORMATION_SCHEMA 元数据,以便在 Google Big Query 中通过 table_name 获得结果