RESIN: 消除SQL查询中的冗余I/O丨DB Paper Reading 线上直播

Posted PingCAP

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了RESIN: 消除SQL查询中的冗余I/O丨DB Paper Reading 线上直播相关的知识,希望对你有一定的参考价值。

DB Paper Reading 这周继续来营业啦!我们希望通过对业界学术论文的分享,带大家了解数据库学术界最新的研究方向。7 月 13 日晚 TiDB Contributor 韩明聪将为大家解读 Generalized Sub-Query Fusion for Eliminating Redundant I/O from Big-Data Queries该论文提出了一个查询优化器的扩展——RESIN,它包含了两类新的算子 ResinMap 以及 ResinReduce,并且提出了 Generalized Sub-Query Fusion 技术,将含有相同输入的算子融合到一起,消除冗余的 I/O。作者将 RESIN 集成到了 SparkSQL 中,在 TPCDS 的测试里,有 40% 的查询得到了 1.1-6x 的性能提升。感兴趣的朋友不要错过,赶紧报名约起来~


直播季

PingCAP Paper Reading


时间:2021 年 7 月 13 日晚 19:00-20:00


19:00 - 20:00


Generalized Sub-Query Fusion for Eliminating Redundant I/O from Big-Data Queries


TiDB Contributor

韩明聪

关注SQL查询优化与执行;

上海交通大学IPADS实验室博士研究生,研究方向为系统软件。



Content
在分布式 OLAP 的场景中,磁盘与网络 I/O 是查询性能的主要瓶颈,而传统的 SQL 查询优化器为一些典型的查询(TPCDS 中 25% 的查询)产生的查询计划中,往往会存在冗余的 I/O 从而导致较差的性能。造成这一现象的主要原因是传统的查询优化器产生的查询计划只能使用标准的关系算子,而这些算子的组合无法消除这些冗余的 I/O 。本文提出了一个查询优化器的扩展——RESIN,它包含了两类新的算子 ResinMap 以及 ResinReduce,并且提出了 Generalized Sub-Query Fusion 技术,将含有相同输入的算子融合到一起,消除冗余的 I/O。作者将 RESIN 集成到了 SparkSQL 中,在 TPCDS 的测试里,有 40% 的查询得到了 1.1-6x 的性能提升。

SQL is the de-facto language for big-data analytics. Despite the cost of distributed SQL execution being dominated by disk and network I/O, we find that state-of-the-art optimizers produce plans that are not I/O optimal. For a significant fraction of queries (25% of popular benchmarks like TPCDS), a large amount of data is shuffled redundantly between different pairs of stages. The fundamental reason for this limitation is that optimizers do not have the right set of primitives to perform reasoning at the map-reduce level that can potentially identify and eliminate the redundant I/O. This paper proposes RESIN, an optimizer extension that adds first-class support for map-reduce reasoning. RESIN uses a novel technique called Generalized Sub-Query Fusion that identifies sub-queries computing on overlapping data, and fuses them into the same map-reduce stages. The analysis is general; it does not require that the sub-queries be syntactically the same, nor are they required to produce the same output. Sub-query fusion allows RESIN to sometimes also eliminate expensive binary operations like Joins and Unions altogether for further gains. We have integrated RESIN into SPARKSQL and evaluated it on TPCDS, a standard analytics benchmark suite. Our results demonstrate that the proposed optimizations apply to 40% of the queries and speed up a large fraction of them by 1.1−6×, reducing the overall execution time of the benchmark suite by 12%.




报名方式:扫描二维码即可参与报名~

RESIN: 消除SQL查询中的冗余I/O丨DB Paper Reading 线上直播


以上是关于RESIN: 消除SQL查询中的冗余I/O丨DB Paper Reading 线上直播的主要内容,如果未能解决你的问题,请参考以下文章

通过消除视图简化 SQL Server 查询

如何消除正则表达式中的冗余?

DB2 中的合并查询

突击发售丨Adidas Yeezy Slide “Resin” & “Core”

SQL语句复习专题四

求SQL语句,去除冗余