当新数据到达 Bigquery 时触发数据流作业
Posted
技术标签:
【中文标题】当新数据到达 Bigquery 时触发数据流作业【英文标题】:Trigger dataflow job when new data arrived in Bigquery 【发布时间】:2020-08-14 15:18:34 【问题描述】:我有两个BQ表A和B。我想要实现的是当新数据到达表A时,可以触发数据流作业来转换新记录并插入表B,这可能吗?如果是,是否有任何最佳做法?
【问题讨论】:
【参考方案1】:我确信有多种方法可以解决这个问题。一种方式derived from this stakoverflow thread如下:
-
将 Stackdriver 日志 推送到 Pub/Sub 并应用 强过滤器,该过滤器只允许 BigQuery 将作业加载 到表 A 中。查看文档here 了解更多信息。
创建一个Cloud Function instance with a Pub/Sub trigger。
该函数实例的职责是启动 Dataflow Batch 作业,该作业将在最终将生成的 PCollection 写入表 B 之前执行必要的转换。
【讨论】:
以上是关于当新数据到达 Bigquery 时触发数据流作业的主要内容,如果未能解决你的问题,请参考以下文章
在 Bigquery 中查询外部表并且新数据到达时没有架构自动检测