我们如何将大型数据集从 Google BigQuery 导入 R?
Posted
技术标签:
【中文标题】我们如何将大型数据集从 Google BigQuery 导入 R?【英文标题】:How do we import large datasets from Google BigQuery to R? 【发布时间】:2019-05-30 19:33:22 【问题描述】:我们如何将大型数据集从 Google BigQuery 导入到 R 中?
我尝试使用 BigQuery 包并尝试导入。我能够成功导入较小的数据集,但不能成功导入大型数据集
sql <- "SELECT * FROM Table name"
todo_copies <- query_exec(sql, project = 'data-warehouse', dataset = 'name', useLegacySql = FALSE)
处理的字节数错误:请求的资源太大而无法返回 [responseTooLarge]
【问题讨论】:
将查询粘贴到 BQ Web UI 是否有效? 如果您只想要整个表,请使用导出而不是查询 导出会导致本地 PC 出现内存问题,所以我想从大查询中获取 R 上的数据作为数据框。此查询是用 R 编写的,用于从大查询中获取数据到 R 【参考方案1】:该消息指的是与 BQ 中的查询作业的 Maximum response size 相关的限制。 write to a detination table可以管理;但是,此选项很可能无法满足您的需求。
请注意,R 文档表明 query_exec is being deprecated 支持 bq_project_query 和其他线程,如 How to load large datasets to R from BigQuery?,建议 adjust the page_size property:
"出现错误responseTooLarge时应该调整"
【讨论】:
以上是关于我们如何将大型数据集从 Google BigQuery 导入 R?的主要内容,如果未能解决你的问题,请参考以下文章
如何将 Spark-BigQuery_connector 用于现有的 spark 环境(不使用 google dataproc)
在 Google BigQuery 中创建 CSV 表的困难