将嵌套分区 parquet 文件导入 Big Query 表

Posted

技术标签:

【中文标题】将嵌套分区 parquet 文件导入 Big Query 表【英文标题】:Import nested partitioned parquet file into Big Query table 【发布时间】:2020-06-17 12:50:39 【问题描述】:

我在云存储中有镶木地板文件,这些文件在年 -> 月 -> 日嵌套分区。我希望将此文件摄取到大查询表中。我该怎么做呢?我是 GCP 新手。

提前致谢

【问题讨论】:

【参考方案1】:

您可以在您的 GCP 项目中使用 Cloud Shell 并执行以下命令:

bq load \
--source_format=PARQUET \
dataset.table \
"gs://mybucket/my_file.parquet"

用您自己的数据集、表和 Parquet 文件的 Cloud Storage URI 路径替换这些值。

或者,您也可以使用web console 将镶木地板文件加载到 BigQuery 中。

【讨论】:

以上是关于将嵌套分区 parquet 文件导入 Big Query 表的主要内容,如果未能解决你的问题,请参考以下文章

如何让 Spark 使用 Parquet 文件中的分区信息?

由于 parquet 文件损坏,Impala 无法创建分区表

Azure Blob (pyarrow) 上的分区 Parquet 文件

将具有无效字符的嵌套字段从 Spark 2 导出到 Parquet [重复]

我如何将每个Parquet行组读入一个单独的分区?

我们可以像在 Hive 中一样在 Big Query 中创建动态分区吗?