以 JSON 格式下载大查询表

Posted

技术标签:

【中文标题】以 JSON 格式下载大查询表【英文标题】:Download Big Query Table as JSON 【发布时间】:2015-08-24 07:12:54 【问题描述】:

我想以 JSON 格式下载现有的 Big Query 表,用于处理具有长字符串的列之一。

Big Query 表已通过 Datastore 备份文件从 App Engine 提取到 GCS。我使用 Big Query 从 GCS 读取 Datastore 备份文件并从中创建了一个表,这导致重复的字符串列作为非常长的字符串。

我无法解析长字符串,因此我需要将表下载为 JSON 并将 Big Query 重新作为新表。我需要对这种方法的建议

【问题讨论】:

【参考方案1】:

有 3 种方法可以导出数据:

    单个 URI(1 个文件,限制 1GB,很可能你正在使用这个)

['gs://my-bucket/file-name.json']

创建:

gs://my-bucket/file-name.json

    单个通配符 URI(每个 1GB 创建多个文件)

['gs://my-bucket/file-name-*.json']

创建:

gs://my-bucket/file-name-000000000000.json gs://my-bucket/file-name-000000000001.json gs://my-bucket/file-name-000000000002.json ...

    多个通配符 URI(这需要 Hadoop)

gs://my-bucket/file-name-工人编号-*.json

创建:

此示例假设 BigQuery 在每个文件中创建 80 个分片文件 分区。

gs://my-bucket/file-name-1-000000000000.json gs://my-bucket/file-name-1-000000000001.json ... gs://my-bucket/file-name-1-000000000080.json gs://my-bucket/file-name-2-000000000000.json gs://my-bucket/file-name-2-000000000001.json ... gs://my-bucket/file-name-2-000000000080.json gs://my-bucket/file-name-3-000000000000.json gs://my-bucket/file-name-3-000000000001.json ... gs://my-bucket/file-name-3-000000000080.json

阅读更多:

https://cloud.google.com/bigquery/exporting-data-from-bigquery

【讨论】:

以上是关于以 JSON 格式下载大查询表的主要内容,如果未能解决你的问题,请参考以下文章

如何将配置单元查询结果以json格式存储在文件中?

Django 视图:以 JSON 格式返回查询集

将 Biquery 查询格式化为 ML 适当的 JSON 以通过 ML Predict

使用 BigQuery REST 或 Java API 运行查询以获取 JSON 输出格式

以 JSON 格式的 window.location.search 查询

后端返回值以json的格式返回,前端以json格式接收