将 bigquery 数据移至 Redshift

Posted

技术标签:

【中文标题】将 bigquery 数据移至 Redshift【英文标题】:Moving bigquery data to Redshift 【发布时间】:2019-07-15 18:57:07 【问题描述】:

我需要将我的 bigquery 表移动到 redshift。

目前我有一个从 redshift 获取数据的 python 作业,它是在 redshift 上增量加载我的数据。

这个 python 作业正在读取 bigquery 数据,在服务器中创建一个 csv 文件,在 s3 上删除相同的文件,readshift 表从 s3 上的文件中读取数据。但是现在时间会很大,服务器处理不了。

你们碰巧知道比这更好的吗?

我需要移动的 bigquery 上的 7 个新表,每个表大约 1 TB,并带有重复的列集。 (我正在做一个 unnest join 来展平它)

【问题讨论】:

额外上下文:reddit.com/r/bigquery/comments/cbkkrc/… 如果您的 CSV 太大或减慢了进程...您可以将 BQ 源表细分或查询成更小的文件或增量文件吗? 【参考方案1】:

您实际上可以按照说明 here 将数据从 Big Query 移动到 Cloud Storage Bucket。之后,您可以通过运行轻松地将数据从 Cloud Storage 存储桶移动到 Amazon s3 存储桶:

gsutil rsync -d -r gs://your-gs-bucket s3://your-s3-bucket

可以在here找到相关文档

【讨论】:

以上是关于将 bigquery 数据移至 Redshift的主要内容,如果未能解决你的问题,请参考以下文章

如何将BigQuery数据移动到长期存储?或者只是在90天后自动标记为? [关闭]

将数据访问逻辑从业务层移至数据访问层

将 Excel 工作表移至 Microsoft 访问的 Excel-VBA 代码?

将验证移至 JPQL 查询级别

将 IF EXISTS 移至 WHERE 子句

Google BigQuery - 将数据流式传输到 BigQuery