使用 spark 将 parquet 数据从 Google 云存储加载到 BigQuery
Posted
技术标签:
【中文标题】使用 spark 将 parquet 数据从 Google 云存储加载到 BigQuery【英文标题】:Load parquet data from Google cloud storage to BigQuery using spark 【发布时间】:2019-12-04 07:37:42 【问题描述】:如何加载 Parquet 数据以从 Google 云存储中触发并将其保存到 BigQuery?
【问题讨论】:
很好哈哈。 【参考方案1】:要将数据从 Google Cloud Storage 加载到 Spark:
df=spark.read.parquet("gs://<path to parquet file>")
你可以在做必要的转换后以类似的方式编写(将gs添加到文件名的开头)
您可以通过以下链接将 parquet 中的云存储中的数据从 parquet 加载到 BigQuery:
https://cloud.google.com/bigquery/docs/loading-data-cloud-storage-parquet
【讨论】:
在写入 BQ 之前,我们还需要对数据进行一些转换。因此,我们正在考虑使用 spark。 如果这解决了您的问题,请将其标记为答案以上是关于使用 spark 将 parquet 数据从 Google 云存储加载到 BigQuery的主要内容,如果未能解决你的问题,请参考以下文章
将具有无效字符的嵌套字段从 Spark 2 导出到 Parquet [重复]
使用 spark 写入 parquet 文件时如何添加额外的元数据
使用 spark 将 parquet 文件加载到 vertica 数据库中
使用 spark-sql cli 将 csv 数据直接加载到 parquet 表中