大数据专题--Hive 与 impala
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据专题--Hive 与 impala相关的知识,希望对你有一定的参考价值。
参考技术A 由FaceBook开发,贡献给APache。Hive是基于Hadoop的一个 数据仓库 工具,依赖HDFS完成数据存储,依赖于MapReduce处理数据。其本身并不存储数据。Hive 定义了简单的类 SQL 查询语言,称为 HQL,通过编写HiveQL语句,运行具体的MapReduce任务。
1)采用批处理方式处理海量数据。
2)提供了ETL工具。
Hive的体系结构可以分为以下几部分:
Hive 对外提供了三种服务模式,即 Hive 命令行模式(CLI),Hive 的 Web 模式(WUI),Hive 的远程服务(Client)。Hive 远程服务通过 JDBC 等访问来连接 Hive ,这是日常中最需要的方式。
元数据存储在mysql或Derby中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
由Cloudera公司开发的新型查询系统。
Impala元数据存储在Hive中,不能独立运行,依赖Hive元数据。
Impala执行查询时,不需要转换成MapReduce任务,可以直接与HDFS或HBase进行交互查询,查询效率远远高于Hive。
Impala采用与Hive相同的SQL语法,ODBC驱动程序和用户接口。
Impala主要由Impalad, State Store和CLI组成,执行查询的时候分布在多个节点上进行。
Impalad:负责协调客户端提交变得查询的执行,与HDFS的数据节点运行在同一节点上。
State Store:负责收集分布在集群中各个Impalad进城的资源信息用于查询调度。
CLI: 提供给用户查询使用的命令行工具(Impala Shell使用python实现),同时Impala还提供了Hue,JDBC, ODBC使用接口。
DBeaver中配置的使用JDBC来访问。
其具体执行过程如下:
1、试用场景:
Hive:跑批
Impala:实时交互
2、计算方式:
Hive:依赖于MapReduce框架
Impala:直接分发执行计划到各个Impalad执行查询
3、资源使用情况:
Hive执行过程中,若内存放不下所有数据则会使用外存。
Impala只用内存。
以上是关于大数据专题--Hive 与 impala的主要内容,如果未能解决你的问题,请参考以下文章