BigQuery 自动化

Posted

技术标签:

【中文标题】BigQuery 自动化【英文标题】:BigQuery Automation 【发布时间】:2017-02-05 13:14:31 【问题描述】:

我是 BigQuery 和一般编程新手(精通 SQL),因为我有数据分析背景。我正在使用 BigQuery 分析我的 android 应用的事件数据。我的数据很好地流入了 BQ 表,并且能够在 BQ Web UI 中编写查询,将它们的结果保存在新表中,以便在 Tableau 中进一步分析。 问题是我必须每天运行约 10 个查询,因为我的事件表每天都会更新。 能够自动(和安排)运行已保存查询(保存在 BQ Web UI 中)并使用查询结果定期更新表的最佳流程是什么?

我已经探索过 bq 命令工具、作业、BigQuery API,但我迷失在过多的信息中(我在此归咎于我缺乏编程经验)。有人可以帮忙吗?

【问题讨论】:

【参考方案1】:

这可能被认为是一个过于宽泛的问题,但我会尝试给出我的观点。

在我们公司,我们使用 python API client 工具将所有事情自动化。

对我们来说有一些优势,例如我们不仅需要每天运行数十个查询,而且还需要针对我们拥有的每家商店进行调整。我们通过使用Jinja's templates 和一些配置文件来做到这一点。我们刚刚发现 python 在这些任务中为我们提供了很好的服务(我想在命令行工具中这样做可能更具挑战性)。

对于调度,我们只是在堆栈中的一些 EC2 实例中设置了CRON jobs,它们会在设置时间后执行整个操作(我们计划将整个堆栈迁移到 GCP,但这需要一段时间)。

最后,这只是解决此任务的一种方法。确实还有很多其他的。就简单性和维护而言,我认为您会发现这种方法也非常适合您。

【讨论】:

感谢指点威尔!我将尝试您在上面列出的解决方案,并根据它们是否对我有用而在此处更新。

以上是关于BigQuery 自动化的主要内容,如果未能解决你的问题,请参考以下文章

BigQuery 谷歌分析自动化问题

BigQuery 的自动化 Apps 脚本未连接到正确的项目?

如何使用 python 自动生成 bigquery 模式?

让 BigQuery 自动检测架构

如何自动化 BigQuery SQL 管道

在 Bigquery 中为多个 CSV 文件自动创建表