Impala 简介

Posted IT技术速递

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Impala 简介相关的知识,希望对你有一定的参考价值。

一、概述

ImpalaCloudera公司推出,提供对HDFSHbase数据的高性能、低延迟的交互式SQL查询功能。

基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点

impala使用hive的元数据, 完全在内存中计算

CDH平台首选的PB级大数据实时查询分析引擎

 

二、Impala的特点

1、基于内存进行计算,能够对PB级数据进行交互式实时查询、分析

2、无需转换为MR,直接读取HDFSHbase数据 ,从而大大降低了延迟。

Impala没有MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query PlannerQuery CoordinatorQuery Exec Engine三部分组成

3C++编写,LLVM统一编译运行

在底层对硬件进行优化, LLVM:编译器,比较稳定,效率高

4、兼容HiveSQL

支持hive基本的一些查询等,hive中的一些复杂结构是不支持的

5、具有数据仓库的特性,可对hive数据直接做数据分析

6、支持Data Local

数据本地化:无需数据移动,减少数据的传输

7、支持列式存储

可以和Hbase整合:因为Hive可以和Hbasez整合

8、支持JDBC/ODBC远程访问

 

三、Impala缺点

1、对内存依赖大

只在内存中计算,官方建议128G(一般64G基本满足),可优化: 各个节点汇总的节点(服务器)内存选用大的,不汇总节点可小点

2、完全依赖hive

3、实践过程中分区超过1w 性能严重下下降

定期删除没有必要的分区,保证分区的个数不要太大

4、稳定性不如hive

因完全在内存中计算,内存不够,会出现问题, hive内存不够,可使用外存

5Impala不提供任何对序列化和反序列化的支持。

6Impala只能读取文本文件,而不能读取自定义二进制文件。

7、每当新的记录/文件被添加到HDFS中的数据目录时,该表需要被刷新。


以上是关于Impala 简介的主要内容,如果未能解决你的问题,请参考以下文章

原创大数据基础之Impala简介安装使用

Impala 简介

Impala简介

Impala元数据简介

什么是impala,如何安装使用Impala

什么是impala,如何安装使用Impala