BigQuery 数据可用性
Posted
技术标签:
【中文标题】BigQuery 数据可用性【英文标题】:BigQuery data availability 【发布时间】:2015-03-20 17:29:57 【问题描述】:我正在运行一系列 BigQuery 作业,两个作业分别使用 LOAD 函数将数据从 Google Storage 插入-覆盖到两个表中,然后最后一个作业对这些表执行 JOIN 以生成结果表。
我遇到的问题是来自 JOIN 的结果表没有反映来自我加载的两个表之一的数据,这意味着在 LOAD 作业期间写入的数据尚不可用于查询。
大约一个小时后,当我手动重新运行 JOIN 时,结果表是正确的。这意味着在某个未知的时间段内加载了数据,但表的内容尚未刷新。
关于这种情况,谷歌团队可以提供更多信息吗?
这是了解时间线的日志:
表 1 加载完成
2015-03-20 16:22:54,237 INFO com.ni.google.application.ImportApplication - 作业 job_U_OkoXXk91zl2wlyKWb5uWxNHkk 已完成,表 media_20150320 设置为过期 在 1434639614948
表 2 加载完成
2015-03-20 16:33:29,123 INFO com.ni.google.application.LoadTablesApplication - 作业 job_QHxva8d6lXmxpaiZDyUmyDSWu6o 已完成,表warehouse_dataview_interest_counts_1day 设置为在 1434645158930 到期
#我应该睡在这里
table1 加入 table2 开始
2015-03-20 16:33:39,916 INFO com.ni.google.application.RollupApplication - 加载查询模板:warehouse_comparison_1day
谢谢, 卢克
【问题讨论】:
我一直在关注这个问题,因为文档 [1] 说加载作业完成时数据应该是一致的。似乎这可能是一个暂时的问题? [1]cloud.google.com/bigquery/… 似乎这是一个暂时的问题或我这边的问题,从那以后我就没有目睹过这个问题。 【参考方案1】:这也发生在我身上,对于某些节点来说可能是暂时的问题。反正我们现在很好。而且我从你的更新中看到你很好。
如果您看到类似的问题,请将其发布到问题跟踪器: https://code.google.com/p/google-bigquery/
【讨论】:
以上是关于BigQuery 数据可用性的主要内容,如果未能解决你的问题,请参考以下文章
如何使用 Google Analytics 数据在 Bigquery 中获取可用的日期时间字段
Google BigQuery 的 PostGIS 可用性 [关闭]