我们如何将大型数据集从 Google BigQuery 导入 R?

Posted

技术标签:

【中文标题】我们如何将大型数据集从 Google BigQuery 导入 R?【英文标题】:How do we import large datasets from Google BigQuery to R? 【发布时间】:2019-05-30 19:33:22 【问题描述】:

我们如何将大型数据集从 Google BigQuery 导入到 R 中?

我尝试使用 BigQuery 包并尝试导入。我能够成功导入较小的数据集,但不能成功导入大型数据集

sql <- "SELECT * FROM Table name"

todo_copies <- query_exec(sql, project = 'data-warehouse', dataset = 'name', useLegacySql = FALSE)

处理的字节数错误:请求的资源太大而无法返回 [responseTooLarge]

【问题讨论】:

将查询粘贴到 BQ Web UI 是否有效? 如果您只想要整个表,请使用导出而不是查询 导出会导致本地 PC 出现内存问题,所以我想从大查询中获取 R 上的数据作为数据框。此查询是用 R 编写的,用于从大查询中获取数据到 R 【参考方案1】:

该消息指的是与 BQ 中的查询作业的 Maximum response size 相关的限制。 write to a detination table可以管理;但是,此选项很可能无法满足您的需求。

请注意,R 文档表明 query_exec is being deprecated 支持 bq_project_query 和其他线程,如 How to load large datasets to R from BigQuery?,建议 adjust the page_size property:

"出现错误responseTooLarge时应该调整"

【讨论】:

以上是关于我们如何将大型数据集从 Google BigQuery 导入 R?的主要内容,如果未能解决你的问题,请参考以下文章

如何将 Spark-BigQuery_connector 用于现有的 spark 环境(不使用 google dataproc)

在 Google BigQuery 中创建 CSV 表的困难

将数据集从 Oracle PL/SQL 传递到 Java 的适当方法

跨 django 数据库移动大型数据集

将结果集从 UNPIVOT 插入到表中

JavaScript数据结构总结