BigQuery 数据可用性

Posted

技术标签:

【中文标题】BigQuery 数据可用性【英文标题】:BigQuery data availability 【发布时间】:2015-03-20 17:29:57 【问题描述】:

我正在运行一系列 BigQuery 作业,两个作业分别使用 LOAD 函数将数据从 Google Storage 插入-覆盖到两个表中,然后最后一个作业对这些表执行 JOIN 以生成结果表。

我遇到的问题是来自 JOIN 的结果表没有反映来自我加载的两个表之一的数据,这意味着在 LOAD 作业期间写入的数据尚不可用于查询。

大约一个小时后,当我手动重新运行 JOIN 时,结果表是正确的。这意味着在某个未知的时间段内加载了数据,但表的内容尚未刷新。

关于这种情况,谷歌团队可以提供更多信息吗?

这是了解时间线的日志:

表 1 加载完成

2015-03-20 16:22:54,237 INFO com.ni.google.application.ImportApplication - 作业 job_U_OkoXXk91zl2wlyKWb5uWxNHkk 已完成,表 media_20150320 设置为过期 在 1434639614948

表 2 加载完成

2015-03-20 16:33:29,123 INFO com.ni.google.application.LoadTablesApplication - 作业 job_QHxva8d6lXmxpaiZDyUmyDSWu6o 已完成,表warehouse_dataview_interest_counts_1day 设置为在 1434645158930 到期

#我应该睡在这里

table1 加入 table2 开始

2015-03-20 16:33:39,916 INFO com.ni.google.application.RollupApplication - 加载查询模板:warehouse_comparison_1day

谢谢, 卢克

【问题讨论】:

我一直在关注这个问题,因为文档 [1] 说加载作业完成时数据应该是一致的。似乎这可能是一个暂时的问题? [1]cloud.google.com/bigquery/… 似乎这是一个暂时的问题或我这边的问题,从那以后我就没有目睹过这个问题。 【参考方案1】:

这也发生在我身上,对于某些节点来说可能是暂时的问题。反正我们现在很好。而且我从你的更新中看到你很好。

如果您看到类似的问题,请将其发布到问题跟踪器: https://code.google.com/p/google-bigquery/

【讨论】:

以上是关于BigQuery 数据可用性的主要内容,如果未能解决你的问题,请参考以下文章

BigQuery 流式插入使用模板表数据可用性问题

如何使用 Google Analytics 数据在 Bigquery 中获取可用的日期时间字段

bigquery 查询第一个可用列

Google BigQuery 的 PostGIS 可用性 [关闭]

Dataproc + BigQuery 示例 - 有可用的吗?

如何将BigQuery数据移动到长期存储?或者只是在90天后自动标记为? [关闭]