使用 spark 将 parquet 数据从 Google 云存储加载到 BigQuery

Posted 2023-03-25

技术标签:

【中文标题】使用 spark 将 parquet 数据从 Google 云存储加载到 BigQuery【英文标题】：Load parquet data from Google cloud storage to BigQuery using spark 【发布时间】：2019-12-04 07:37:42 【问题描述】：

如何加载 Parquet 数据以从 Google 云存储中触发并将其保存到 BigQuery？

【问题讨论】：

很好哈哈。 【参考方案1】：

要将数据从 Google Cloud Storage 加载到 Spark：

df=spark.read.parquet("gs://<path to parquet file>")

你可以在做必要的转换后以类似的方式编写（将gs添加到文件名的开头）

您可以通过以下链接将 parquet 中的云存储中的数据从 parquet 加载到 BigQuery：

https://cloud.google.com/bigquery/docs/loading-data-cloud-storage-parquet

【讨论】：

在写入 BQ 之前，我们还需要对数据进行一些转换。因此，我们正在考虑使用 spark。如果这解决了您的问题，请将其标记为答案

以上是关于使用 spark 将 parquet 数据从 Google 云存储加载到 BigQuery的主要内容，如果未能解决你的问题，请参考以下文章

将具有无效字符的嵌套字段从 Spark 2 导出到 Parquet [重复]