如何将数据从按年/月/日分区的存储桶中加载到 bigquery
Posted
技术标签:
【中文标题】如何将数据从按年/月/日分区的存储桶中加载到 bigquery【英文标题】:How to Load data into bigquery from buckets partitioned with Year/Month/Day 【发布时间】:2020-06-18 08:57:51 【问题描述】:我们在 gcp 存储桶中存储了以下格式的数据 - gs:/gcptest/Year=2020/Month=06/day=18/test1.parquet 以及 day=18 文件夹下的许多文件。 我想在 bigquery 中创建一个表,其中包含文件中存在的列,并按文件路径上存在的年、月、日进行分区。 因此,当我将数据加载到表中时,我可以从 gcp 存储桶中选择路径并加载将按路径上存在的年/月/日值分区的数据
【问题讨论】:
【参考方案1】:BigQuery 支持使用默认 Hive 分区布局加载存储在 Cloud Storage 上的 Avro、Parquet、ORC、CSV 和 JSON 格式的外部分区数据。
目前支持仅限于 BigQuery 网页界面、命令行工具和 REST API。
您可以在Loading externally partitioned data 文档中查看更多信息 另请参阅如何Query externally partitioned data
【讨论】:
以上是关于如何将数据从按年/月/日分区的存储桶中加载到 bigquery的主要内容,如果未能解决你的问题,请参考以下文章