Impala

Posted _TIM_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Impala相关的知识,希望对你有一定的参考价值。

Impala简介
Impala是基于Hive的大数据查询引擎,直接使用Hive的元数据库metadata,意味着Impala元数据都存储在Hivemetastore中,并且Impala兼容Hive的绝大多数sql语法,所以需要安装Impala的话,必须先安装Hive,保证HIve安装成功,并且还需要启动Hivemetastore服务,它实际上只提供了计算服务,不提供存储服务
Impala的优点

  • Impala很快,因为所有计算都可以放入内存中计算
  • 放弃了MapReduce,用C++来实现,有针对的硬件优化
  • 具有数据仓库的特性,对Hive的原有数据做数据分析
  • 支持ODBCjdbc远程访问

Impala的缺点

  • 基于内存计算,对内存依赖较大
  • 改用C++编写,维护难度变大
  • 稳定性不如Hive,但不会出现数据丢失的情况
  • Hive紧耦合,共存亡

Impala架构
Impala-server: 从节点计算节点,主要负责执行查询任务的计算
Impala-catalog: 主节点,存储和管理元数据
Impala-statestore: 主节点,状态存储区,主要存储一些sql执行的进度信息,状态信息等

Impala查询计划,分为两个阶段
fronted 使用Java实现,负责生成查询计划,第一阶段生成单机版查询计划,第二阶段生成分布式查询计划
backend 使用C++实现,负责执行查询

impala与hive的比较
impala比较快,impala稳定性不如hive

Impala可以和Shell以及Java交互

以上是关于Impala的主要内容,如果未能解决你的问题,请参考以下文章

什么是impala,如何安装使用Impala

什么是impala,如何安装使用Impala

什么是impala,如何安装使用Impala

什么是impala,如何安装使用Impala

impala 实操

怎么理解impala(impala工作原理是什么)