BigQuery 流式插入数据可用性延迟
Posted
技术标签:
【中文标题】BigQuery 流式插入数据可用性延迟【英文标题】:BigQuery streaming insert data availability delay 【发布时间】:2015-03-30 13:15:04 【问题描述】:我已经使用 BigQuery 大约 2 个月了。在那段时间里,我使用流式插入每分钟添加数千个条目。我已经能够在几分钟内查询到这些数据,如果不是即时的话。
不过,从几天前开始,我的一张表突然开始显示数据可用性延迟 20 到 60 分钟。这只发生在我的一张桌子上。插入到其他表中的数据几乎立即可用。
这种数据可用性延迟对于 BigQuery 来说是否正常?
遇到此问题的表是accuAudience.trackPlays
。我很乐意向 Google 团队成员提供项目 ID 和其他信息。
流式插入问题表的结果是:
'kind': 'bigquery#tableDataInsertAllResponse'
来自有问题的表的示例查询,accuAudience.trackPlays
(按日期降序排序):
行日期计数 1 2015-03-30 12:35:32 UTC 67 2 2015-03-30 12:35:31 UTC 65 3 2015-03-30 12:35:30 UTC 56 4 2015-03-30 12:35:29 UTC 45 5 2015-03-30 12:35:28 UTC 60
几秒钟后对不同的表进行了相同的查询 (accuAudience.trackSkips
)。请注意,日期字段比之前的查询早 30 分钟。
行日期计数 1 2015-03-30 13:04:03 UTC 1 2 2015-03-30 13:04:02 UTC 1 3 2015-03-30 13:04:01 UTC 3 4 2015-03-30 13:04:00 UTC 3 5 2015-03-30 13:03:59 UTC 6
如果需要其他信息,请告诉我!
【问题讨论】:
这是第二个类似问题的问题,我们需要 BQ 团队的官方回答(可能是性能问题)。请张贴您的项目和表格,以便当 BQ 团队的某个人检查此内容以进行调查时。链接其他问题:***.com/questions/29246369/… 谢谢!我已经用表名更新了我的帖子,如果需要,我可以向 Google 团队成员提供我的项目 ID 和任何其他必要信息。 现在是 2017 年,流数据仍然出现 10 多分钟的延迟。对我来说,发送select *
查询有助于找到数据。但为什么它会在流缓冲区中停留数小时?几个类似的问题,供参考:***.com/questions/39407558/…***.com/questions/22867090/…
【参考方案1】:
BigQuery 会定期运行后台维护任务来优化您的表以进行查询。其中一项后台任务导致流式处理过程出现问题。这导致我们无法从流缓冲区中读取,直到它被刷新。请注意,当您不断流式传输到桌面时,您可能已经将此视为一个持续存在的问题。
现在已经修复了。如果您仍然发现问题,请告诉我们您遇到问题的表和项目。
【讨论】:
感谢您的解释!但是,我仍然看到这个问题。项目:highly-helix-809。表:accuAudience.trackPlays 我已经查看并解决了您的表的问题。让我知道这个(或任何其他)表的问题是否仍然存在。这是一次性更正,我们将开展更大规模的工作,以查找/更正任何其他可能受到类似影响的表格。 谢谢@SeanChen - 看起来是这样做的!我们不再看到这个问题。感谢您的帮助!以上是关于BigQuery 流式插入数据可用性延迟的主要内容,如果未能解决你的问题,请参考以下文章
从其他 Google Cloud 服务流式传输数据时,是不是可以修复失败的 BigQuery 插入?