使用 GitHub 的源代码控制 BigQuery 数据集

Posted

技术标签:

【中文标题】使用 GitHub 的源代码控制 BigQuery 数据集【英文标题】:Source control BigQuery Dataset with GitHub 【发布时间】:2017-02-27 15:15:19 【问题描述】:

是否有一种优雅的方式来控制 BigQuery 和 GitHub 之间的数据集表/视图定义(可能类似于 Visual Studios -> 数据库项目)以确保跨多个开发人员的一致性和可追溯性?

我可以看到我们如何手动制作视图脚本并将它们添加到存储库中,但是我希望避免手动维护这些文件的开销以及不可避免的与 BigQuery 断开连接的开销。

BigQuery 本身是否提供任何要支持的功能;

    从现有 BigQuery 环境生成脚本以提取表/视图定义 将这些脚本存储在可以与 BigQuery 保持同步的数据库项目中 自动发布数据集/表/视图定义脚本以创建新环境 将 BigQuerys 数据集定义与源代码控制 (GitHub) 模型进行比较,以识别元数据差异

【问题讨论】:

【参考方案1】:

BigQuery 因为它是一项托管服务,所以它提供了端点,它允许项目所有者构建自己的 Ops。

它不是服务器,而是仓库服务,它本身并不提供所有这些自动化。

您应该始终保持活跃的存储库并备份所有信息,因此在最终断开连接或需要重建时,您应该拥有所有自动化来创建数据卫星并重播任何事件。这对于任何托管服务都至关重要。

【讨论】:

以上是关于使用 GitHub 的源代码控制 BigQuery 数据集的主要内容,如果未能解决你的问题,请参考以下文章

如何获取 BigQuery 中给定存储库的 GitHub 星总数?

Google BigQuery 数据集导出

Google Spark-BigQuery-Connector如何利用BigQuery Storage API?

github 示例上的 SQL/BigQuery

将 protobuf 数据加载到 bigquery

SQL语法错误-CONCAT,控制台-BigQuery [关闭]