客快物流大数据项目(八十四):Impala优化

Posted Lansonli

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了客快物流大数据项目(八十四):Impala优化相关的知识,希望对你有一定的参考价值。

 

文章目录

Impala优化

一、​​​​​​​Impala关键配置

二、Impala查询分析

三、​​​​​​​​​​​​​​Impala优化思路


Impala优化

一、​​​​​​​​​​​​​​Impala关键配置

分配给此角色的内存软限制,由 Linux 内核强制执行。当达到此限制时,内核将只在主机面

临内存压力时回收已分配给进程的页面。如果回收失败,内核可能会停止这些进程。

分配给此角色的内存硬限制,由 Linux 内核强制执行。当达到此限制时,内核将会回收已分

配给进程的页面。如果回收失败,内核可能会停止这些进程。

Impala Daemon 服务的内存限制(以字节为单位)。如果达到该限制,Impalad Daemon 上运

行的查询会被停止。

二、Impala查询分析

从 CM 主页进入 Impala 服务页面,点击查询按钮。

选择执行查询的时间范围,例如,昨天的上午 9 点到今天中午 12 点,使用 Impala 执行

过 SQL 查询。

选择一个查询,并点击右侧的“查询详细信息”。

 

“查询详细信息”中的 SQL 脚本。

“查询详细信息”中的 SQL 脚本对应的执行计划。

 “查询详细信息”中的 SQL 脚本对应的查询耗时。

“查询详细信息”中的 SQL 脚本对应的查询实例。

每一个查询段实例名称,与查询计划中是一一对应的,查询段中包括总耗时、缓冲池内

存使用、入队和出队的内存和耗时开销。

三、​​​​​​​​​​​​​​Impala优化思路

  • 查看执行计划:explain sql;
  • 当SQL执行完成后, 使用profile输出底层的执行计划详细信息 :profile;
  • 当SQL执行完成后,使用summary输出查询时间和占用内存信息 :summary;
  • 大表和小表JOIN时,确保大表在左侧,小表在右侧( Impala 会广播小表到所有节点);
  • 大表和大表JOIN时, 需要使用partitioned join。

  • 📢博客主页:https://lansonli.blog.csdn.net
  • 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
  • 📢本文由 Lansonli 原创,首发于 CSDN博客🙉
  • 📢停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨

以上是关于客快物流大数据项目(八十四):Impala优化的主要内容,如果未能解决你的问题,请参考以下文章

客快物流大数据项目(七十四):Impala的java开发

客快物流大数据项目(八十):用户标签开发

客快物流大数据项目(八十七):ClickHouse的使用案例

客快物流大数据项目(七十):Impala入门介绍

客快物流大数据项目(七十三):Impala数据导入方式

客快物流大数据项目(八十九):ClickHouse的数据类型支持