在 GCP 中调度多个依赖 ETL

Posted

技术标签:

【中文标题】在 GCP 中调度多个依赖 ETL【英文标题】:Scheduling multiple dependent ETL in GCP 【发布时间】:2021-05-15 21:50:04 【问题描述】:

我在 gcp 数据流 vm 中使用 python 中的 apache beam 编写了不同的 ETL 管道。现在,如果使用云功能和调度程序/或 Airflow 依赖于其他人,我们如何安排这些?

【问题讨论】:

您似乎在问多个问题。请尝试通过提供图表或示例以更好的方式提出特定问题或解释您当前的系统。欢迎来到*** :) 【参考方案1】:

您可以使用cloud workflow 来实现此目的。

原则上,这里是要执行的流程

进行 HTTP 调用以运行您的数据流。 答案为您提供 job_id 做一个循环 睡 1 分钟(例如) 使用 job_id 获取作业状态 如果仍在运行,请继续。如果不退出循环 转到下一个 ETL 作业。

您可以使用subworflow来交互循环部分等待数据流管道结束。

如果您需要更多指导来实现这一点,请告诉我。

【讨论】:

以上是关于在 GCP 中调度多个依赖 ETL的主要内容,如果未能解决你的问题,请参考以下文章

无法在云函数中使用 gcp 云调度程序的 json 主体作为参数值?

无法从 GCP 调度程序调用 Google Cloud Function

ETL作业调度软件TASKCTL4.1怎么安装?

ETL作业调度软件TASKCTL4.1怎么购买lic和注册企业版

k8s无法在GCP上调度本地ssd卷

ETL作业调度软件TASKCTL4.1集群部署