Google BigQuery 与 Spark 和 Parquet
Posted
技术标签:
【中文标题】Google BigQuery 与 Spark 和 Parquet【英文标题】:Google BigQuery vs Spark and Parquet 【发布时间】:2017-05-29 06:30:49 【问题描述】:Google BigQuery 与 Apache Spark SQL 和 Parquet 相比如何?
说 BigQuery 实际上是 Storage & Analysis 是否正确,因此您可以将产品拆分为 BigQuery Storage 和 BigQuery Analysis?
我知道还有很多其他的存储机制和处理引擎,但是,要选择 2 个“对”...
就我的理解而言,BigQuery Storage 与 Apache Parquet 相媲美,BigQuery Analysis 与 Spark SQL 相媲美是否正确?
BigQuery 存储实际上被称为 Capacitor 是否正确……“BigQuery 的下一代列式存储格式”?
说 Apache Parquet 和 BigQuery Storage 都提供了 Dremel 的实现是否也正确?
【问题讨论】:
【参考方案1】:电容器是 BigQuery 使用的文件格式,而存储是用于托管文件和数据的整个分布式系统。 Dremel 是底层执行引擎。这里有一些介绍(https://cloud.google.com/blog/big-data/2016/01/bigquery-under-the-hood)。
【讨论】:
以上是关于Google BigQuery 与 Spark 和 Parquet的主要内容,如果未能解决你的问题,请参考以下文章
如何将 Spark-BigQuery_connector 用于现有的 spark 环境(不使用 google dataproc)
Google Spark-BigQuery-Connector如何利用BigQuery Storage API?
使用 spark 将 parquet 数据从 Google 云存储加载到 BigQuery
Google Bigquery:Spark - 不兼容的表分区规范