Presto on Spark:通过 Spark 来扩展 Presto

Posted 过往记忆

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Presto on Spark:通过 Spark 来扩展 Presto相关的知识,希望对你有一定的参考价值。

概述

Presto 最初设计是对数据仓库中的数据运行交互式查询,但现在它已经发展成为一个位于开放数据湖分析之上的统一 SQL 引擎,用于交互式和批处理工作负载,数据湖上的流行工作负载包括:

报告和仪表盘:这包括为内部和外部开发人员提供自定义报告以获取业务洞察力,以及许多使用 Presto 进行交互式 A/B 测试分析的组织。这个用例的典型特征是要求低延迟。它在非常高的 QPS 下需要数十到数百毫秒,毫不奇怪,这个场景几乎完全使用 Presto,而这正是 Presto 的设计目的。•使用 SQL notebooks 的数据科学家:这个用例是一种 ad-hoc 分析,通常需要从几秒到几分钟的中等延迟。这些是数据科学家和业务分析师的查询,他们希望执行紧凑的临时分析以了解产品使用情况,例如用户趋势和如何改进产品。QPS 相对较低,因为用户必须手动启动这些查询。•用于大型数据管道的批处理:这些是每天、每小时或在数据准备就绪时运行的计划作业(scheduled jobs)。它们通常包含对大量数据的查询,延迟可达数十小时,处理的数据从 TB 到 PB 不等。

Presto 对于 ad-hoc 或交互式查询,甚至一些批处理查询都非常有效,其约束条件是整个查询必须适合内存并且运行速度足够快,不需要容错。大多数不适合此框的 ETL 批处理工作负载运行在像 Apache Spark 这种“大数据”计算引擎上。使用不同 SQL 方言和 API 的多个计算引擎使得数据平台团队管理和扩展这些工作负载变得复杂。因此,Fa

以上是关于Presto on Spark:通过 Spark 来扩展 Presto的主要内容,如果未能解决你的问题,请参考以下文章

为啥 Presto 比 Spark SQL 快 [关闭]

presto,dremio,spark-sql与ranger的整合记录

如何在 Spark 中增加 Presto 的查询执行时间

从 EMR spark 连接到 EMR presto - 连接失败

生产环境中的 Hive 与 Spark

SQL查询引擎对峙:Spark VS Impala VS Hive VS Presto