使用 spark 将 parquet 数据从 Google 云存储加载到 BigQuery

Posted

技术标签:

【中文标题】使用 spark 将 parquet 数据从 Google 云存储加载到 BigQuery【英文标题】:Load parquet data from Google cloud storage to BigQuery using spark 【发布时间】:2019-12-04 07:37:42 【问题描述】:

如何加载 Parquet 数据以从 Google 云存储中触发并将其保存到 BigQuery?

【问题讨论】:

很好哈哈。 【参考方案1】:

要将数据从 Google Cloud Storage 加载到 Spark:

df=spark.read.parquet("gs://<path to parquet file>")

你可以在做必要的转换后以类似的方式编写(将gs添加到文件名的开头)

您可以通过以下链接将 parquet 中的云存储中的数据从 parquet 加载到 BigQuery:

https://cloud.google.com/bigquery/docs/loading-data-cloud-storage-parquet

【讨论】:

在写入 BQ 之前,我们还需要对数据进行一些转换。因此,我们正在考虑使用 spark。 如果这解决了您的问题,请将其标记为答案

以上是关于使用 spark 将 parquet 数据从 Google 云存储加载到 BigQuery的主要内容,如果未能解决你的问题,请参考以下文章

将具有无效字符的嵌套字段从 Spark 2 导出到 Parquet [重复]

使用 spark 写入 parquet 文件时如何添加额外的元数据

使用 spark 将 parquet 文件加载到 vertica 数据库中

使用 spark-sql cli 将 csv 数据直接加载到 parquet 表中

使用 Spark 将 csv.gz 文件转换为 Parquet

从多个 parquet 路径创建 Spark SQL 表