将嵌套分区 parquet 文件导入 Big Query 表
Posted
技术标签:
【中文标题】将嵌套分区 parquet 文件导入 Big Query 表【英文标题】:Import nested partitioned parquet file into Big Query table 【发布时间】:2020-06-17 12:50:39 【问题描述】:我在云存储中有镶木地板文件,这些文件在年 -> 月 -> 日嵌套分区。我希望将此文件摄取到大查询表中。我该怎么做呢?我是 GCP 新手。
提前致谢
【问题讨论】:
【参考方案1】:您可以在您的 GCP 项目中使用 Cloud Shell 并执行以下命令:
bq load \
--source_format=PARQUET \
dataset.table \
"gs://mybucket/my_file.parquet"
用您自己的数据集、表和 Parquet 文件的 Cloud Storage URI 路径替换这些值。
或者,您也可以使用web console 将镶木地板文件加载到 BigQuery 中。
【讨论】:
以上是关于将嵌套分区 parquet 文件导入 Big Query 表的主要内容,如果未能解决你的问题,请参考以下文章
如何让 Spark 使用 Parquet 文件中的分区信息?
由于 parquet 文件损坏,Impala 无法创建分区表
Azure Blob (pyarrow) 上的分区 Parquet 文件