如何将数据从按年/月/日分区的存储桶中加载到 bigquery

Posted

技术标签:

【中文标题】如何将数据从按年/月/日分区的存储桶中加载到 bigquery【英文标题】:How to Load data into bigquery from buckets partitioned with Year/Month/Day 【发布时间】:2020-06-18 08:57:51 【问题描述】:

我们在 gcp 存储桶中存储了以下格式的数据 - gs:/gcptest/Year=2020/Month=06/day=18/test1.parquet 以及 day=18 文件夹下的许多文件。 我想在 bigquery 中创建一个表,其中包含文件中存在的列,并按文件路径上存在的年、月、日进行分区。 因此,当我将数据加载到表中时,我可以从 gcp 存储桶中选择路径并加载将按路径上存在的年/月/日值分区的数据

【问题讨论】:

【参考方案1】:

BigQuery 支持使用默认 Hive 分区布局加载存储在 Cloud Storage 上的 Avro、Parquet、ORC、CSV 和 JSON 格式的外部分区数据。

目前支持仅限于 BigQuery 网页界面、命令行工具和 REST API。

您可以在Loading externally partitioned data 文档中查看更多信息 另请参阅如何Query externally partitioned data

【讨论】:

以上是关于如何将数据从按年/月/日分区的存储桶中加载到 bigquery的主要内容,如果未能解决你的问题,请参考以下文章

按年/月/日查询数据

在普罗米修斯中按年/月/日分组数据

AWS Glue - GlueContext:从 S3 读取分区数据,将分区添加为 DynamicFrame 的列

使用 AS 2 将影片剪辑从库中加载到舞台

将时间分区添加到表的最佳实践

如何将 Kinesis 流存储到 S3 存储桶中特定文件夹结构中的 S3 存储