Impala在处理结果集较大的查询的优势

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Impala在处理结果集较大的查询的优势相关的知识,希望对你有一定的参考价值。

    近期运营出报表,查询的数据量为15年的数据量,涉及的表及表中记录数如下图所示:


技术分享

    

    刚开始的时候在mysql中进行查询汇总,选择第一个数据量最小的表,发现MySQL 出现内存溢出,数据库使用的是腾讯云上的一台CDB,内存大小为24GB。后来将数据上传到hdfs上使用impala(数据格式为PARQUET)来查询,发现效果要好于MySQL,我们的impala是一个3节点集群,内存8GB,存储500GB  SSD。查询耗时如下:

技术分享


技术分享

    

技术分享



技术分享



技术分享


从查询的过程可以看出,impala在处理较大的数据集时有着MySQL所不具备的高性能。如果在MySQL中对5亿条记录做汇总,可能需要很高的配置了,而且运行时间不见得比impala短。




本文出自 “勇敢向前,坚决向左” 博客,请务必保留此出处http://quenlang.blog.51cto.com/4813803/1747304

以上是关于Impala在处理结果集较大的查询的优势的主要内容,如果未能解决你的问题,请参考以下文章

Impala 查询以随机顺序返回数据

精通Mybatis之结果集处理流程与映射体系(联合查询与嵌套映射)

php中mysqli 处理查询结果集的几个方法

结果集需要很长时间来处理来自 Oracle 的大数据

oracle 存储过程,数据处理并返回结果集问题

如何在 SQL 查询中获取结果集的字节大小?