当新数据到达 Bigquery 时触发数据流作业

Posted

技术标签:

【中文标题】当新数据到达 Bigquery 时触发数据流作业【英文标题】:Trigger dataflow job when new data arrived in Bigquery 【发布时间】:2020-08-14 15:18:34 【问题描述】:

我有两个BQ表A和B。我想要实现的是当新数据到达表A时,可以触发数据流作业来转换新记录并插入表B,这可能吗?如果是,是否有任何最佳做法?

【问题讨论】:

【参考方案1】:

我确信有多种方法可以解决这个问题。一种方式derived from this stakoverflow thread如下:

    Stackdriver 日志 推送到 Pub/Sub 并应用 强过滤器,该过滤器只允许 BigQuery 将作业加载 到表 A 中。查看文档here 了解更多信息。 创建一个Cloud Function instance with a Pub/Sub trigger。 该函数实例的职责是启动 Dataflow Batch 作业,该作业将在最终将生成的 PCollection 写入表 B 之前执行必要的转换。

【讨论】:

以上是关于当新数据到达 Bigquery 时触发数据流作业的主要内容,如果未能解决你的问题,请参考以下文章

在 Bigquery 中查询外部表并且新数据到达时没有架构自动检测

bigquery 表可以创建的最大分区数

BigQuery - 数据传输作业

使用来自 Bigquery 的新数据更新 Data Studio

Bigquery 数据未上传

BigQuery 加载作业的无架构解决方案