安排定期将数据从 GCS 加载到 BigQuery
Posted
技术标签:
【中文标题】安排定期将数据从 GCS 加载到 BigQuery【英文标题】:Schedule loading data from GCS to BigQuery periodically 【发布时间】:2019-03-04 11:24:40 【问题描述】:我已经对其进行了研究,目前提出了使用 Apache Airflow 的策略。我仍然不确定该怎么做。我得到的大多数博客和答案都是直接代码而不是一些材料来更好地理解它。另外,请建议是否有好的方法。
我也得到了一个答案,比如使用Background Cloud Function
和Cloud Storage trigger
。
【问题讨论】:
【参考方案1】:您可以使用 BigQuery 的 Cloud Storage transfers,但请注意它仍处于测试阶段。
您可以选择安排从 Cloud Storage 到 BigQuery 的传输,但有一定的限制。
【讨论】:
【参考方案2】:我得到的大多数博客和答案都是直接代码
Apache Airflow 为许多任务提供了丰富的 UI,但这并不意味着您不应该编写代码来完成任务。
对于您的情况,您需要将 BigQuery command line operator 用于 Apache Airflow
可以在link 中找到如何做到这一点的好方法
【讨论】:
以上是关于安排定期将数据从 GCS 加载到 BigQuery的主要内容,如果未能解决你的问题,请参考以下文章
将 CSV 从 GCS 批量加载到 BigQuery 时,表数据是增量查看还是仅在所有文件加载后才可查看?
使用 Dataflow 管道 (python) 将多个 Json zip 文件从 GCS 加载到 BigQuery
如何将 API 调用返回的数据直接加载到 BigQuery 中而不存储在 GCS 中?