Impala

Posted 2021-07-08 _TIM_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Impala相关的知识，希望对你有一定的参考价值。

Impala简介
Impala是基于Hive的大数据查询引擎，直接使用Hive的元数据库metadata，意味着Impala元数据都存储在Hive的metastore中，并且Impala兼容Hive的绝大多数sql语法，所以需要安装Impala的话，必须先安装Hive，保证HIve安装成功，并且还需要启动Hive的metastore服务，它实际上只提供了计算服务，不提供存储服务
Impala的优点

Impala很快，因为所有计算都可以放入内存中计算
放弃了MapReduce，用C++来实现，有针对的硬件优化
具有数据仓库的特性，对Hive的原有数据做数据分析
支持ODBC，jdbc远程访问

Impala的缺点

基于内存计算，对内存依赖较大
改用C++编写，维护难度变大
稳定性不如Hive，但不会出现数据丢失的情况
和Hive紧耦合，共存亡

Impala架构
Impala-server： 从节点计算节点，主要负责执行查询任务的计算
Impala-catalog： 主节点，存储和管理元数据
Impala-statestore： 主节点，状态存储区，主要存储一些sql执行的进度信息，状态信息等

Impala查询计划，分为两个阶段
fronted 使用Java实现，负责生成查询计划，第一阶段生成单机版查询计划，第二阶段生成分布式查询计划
backend 使用C++实现，负责执行查询

impala与hive的比较
impala比较快，impala稳定性不如hive

Impala可以和Shell以及Java交互

以上是关于Impala的主要内容，如果未能解决你的问题，请参考以下文章