使用 AVRO 格式的 BigQuery 流式插入

Posted

技术标签:

【中文标题】使用 AVRO 格式的 BigQuery 流式插入【英文标题】:BiqQuery streaming inserts using AVRO format 【发布时间】:2017-01-30 18:30:22 【问题描述】:

有没有办法使用流式插入将 AVRO 格式的数据插入 BigQuery?如果是,我们使用的是google-cloud-python,似乎不支持。唯一支持的类型是 json。我错过了什么吗?

有关 BQ 流式插入的文档似乎并未涵盖数据类型。我只能找到提到 here 的 AVRO 数据格式,但在流式插入的上下文中找不到。

有没有一种方法可以使用流式插入以 AVRO 格式插入数据,您能否将我链接到任何示例?如果无法使用流式插入插入 AVRO 数据,那么使用 AVRO 将大量数据插入 BQ 的推荐方法是什么?我们的使用要求超过了加载作业每天每张表 1000 个作业的限制。

【问题讨论】:

【参考方案1】:

不,目前 JSON 是 bigquery 流式处理 API 唯一支持的格式。如您所述,BigQuery 支持 AVRO 作为加载作业输入。

【讨论】:

以上是关于使用 AVRO 格式的 BigQuery 流式插入的主要内容,如果未能解决你的问题,请参考以下文章

数据流模板“Pub/Sub Avro to Bigquery”无法解码

从 pubsub->bigquery 移动到 pubsub->gcs (avro)->bigquery

从 BigQuery 读取数据并将其写入云存储上的 avro 文件格式

Bigquery 流式插入使用具有空字段的数据流

BigQuery 插入作业而不是流式传输

Spark AVRO 与 BigQuery 兼容