Impala 简介

Posted 2021-04-24 IT技术速递

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Impala 简介相关的知识，希望对你有一定的参考价值。

一、概述

Impala是Cloudera公司推出，提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。

基于Hive使用内存计算，兼顾数据仓库、具有实时、批处理、多并发等优点

impala使用hive的元数据, 完全在内存中计算

是CDH平台首选的PB级大数据实时查询分析引擎

二、Impala的特点

1、基于内存进行计算，能够对PB级数据进行交互式实时查询、分析

2、无需转换为MR，直接读取HDFS及Hbase数据 ,从而大大降低了延迟。

Impala没有MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成

3、C++编写，LLVM统一编译运行

在底层对硬件进行优化， LLVM：编译器，比较稳定，效率高

4、兼容HiveSQL

支持hive基本的一些查询等，hive中的一些复杂结构是不支持的

5、具有数据仓库的特性，可对hive数据直接做数据分析

6、支持Data Local

数据本地化：无需数据移动，减少数据的传输

7、支持列式存储

可以和Hbase整合：因为Hive可以和Hbasez整合

8、支持JDBC/ODBC远程访问

三、Impala缺点

1、对内存依赖大

只在内存中计算，官方建议128G(一般64G基本满足)，可优化: 各个节点汇总的节点(服务器)内存选用大的，不汇总节点可小点

2、完全依赖hive

3、实践过程中分区超过1w 性能严重下下降

定期删除没有必要的分区，保证分区的个数不要太大

4、稳定性不如hive

因完全在内存中计算，内存不够，会出现问题, hive内存不够，可使用外存

5、Impala不提供任何对序列化和反序列化的支持。

6、Impala只能读取文本文件，而不能读取自定义二进制文件。

7、每当新的记录/文件被添加到HDFS中的数据目录时，该表需要被刷新。

以上是关于Impala 简介的主要内容，如果未能解决你的问题，请参考以下文章