Google BigQuery 数据集导出

Posted

技术标签:

【中文标题】Google BigQuery 数据集导出【英文标题】:Google BigQuery Dataset Export 【发布时间】:2014-07-28 01:32:22 【问题描述】:

我正在尝试使用 Google BigQuery 为 GitHub 数据挑战赛下载一个大型数据集。我已经设计了我的查询并且能够在 Google BigQuery 的控制台中运行它,但是我不允许将数据导出为 CSV,因为它太大了。推荐的帮助告诉我将其保存到表格中。这要求我在我的帐户上启用计费功能并尽我所能进行付款。

有没有办法将数据集保存为 CSV(或 JSON)文件,以便无需付款即可导出?

为了澄清,我不需要谷歌云上的这些数据,我只需要能够下载一次。无需持久存储。

【问题讨论】:

【参考方案1】:

如果您可以在不启用应用结算的情况下启用 BigQuery API,则可以尝试使用getQueryResult API call。您最好的选择可能是启用计费(您可能不会为您需要的有限使用付费,因为您可能会留在免费套餐内,但如果您确实被收费,它应该只有几美分)并节省您的查询为Google Storage object。如果它太大,我认为您将无法有效地使用 Web UI。

【讨论】:

【参考方案2】:

请参阅此确切的主题文档:

https://developers.google.com/bigquery/exporting-data-from-bigquery

总结:使用extract 操作。您可以导出 CSV、JSON 或 Avro。导出是免费的,但您需要激活 Google Cloud Storage 才能将生成的文件放在那里。

【讨论】:

【参考方案3】:

使用 BQ 命令行工具 $ bq 查询

使用 --format 标志将结果保存为 CSV。

【讨论】:

以上是关于Google BigQuery 数据集导出的主要内容,如果未能解决你的问题,请参考以下文章

无法在 BigQuery 中访问 Google Analytics 的示例数据集

将结算数据导出到 BigQuery 不起作用

将表从 google bigquery 导出到 google 存储

BigQuery 数据集使用 Google Group 访问服务帐户

google-bigquery 如何使用 https 获取数据集列表?

在 BigQuery 中订购大型时间序列数据集以进行导出