流式 BigQuery API

Posted

技术标签:

【中文标题】流式 BigQuery API【英文标题】:Streaming BigQuery API 【发布时间】:2016-01-25 06:10:46 【问题描述】:

根据谷歌BigQuery Doc 的说法。

为帮助确保数据一致性,您可以为每个 插入的行。 BigQuery 会记住此 ID 至少一分钟。如果 您尝试在该时间段内流式传输相同的行集,并且 设置了 insertId 属性,BigQuery 使用 insertId 属性 尽最大努力消除重复数据。

尝试使用 Ruby client 实现相同的功能。我似乎找不到在流请求中设置 insertID 的方法(参考附件 here)。

【问题讨论】:

【参考方案1】:

您可以在以下位置找到 insert_id: Class: Google::Apis::BigqueryV2::InsertAllTableDataRequest::Row

如果您查看Row 定义,它就在那里in the source:

您还可以在 RubyInfo 上找到更多文档

【讨论】:

我看到了较早的链接,但我想 RubyInfo 是我错过的。谢谢。

以上是关于流式 BigQuery API的主要内容,如果未能解决你的问题,请参考以下文章

Google BigQuery - 将数据流式传输到 BigQuery

BigQuery - 通过 java 流式传输非常慢

BigQuery 插入作业而不是流式传输

使用 AVRO 格式的 BigQuery 流式插入

哪个项目需要为 BigQuery 流式传输付费?

流式 BigQuery API