大数据专题--Hive 与 impala

Posted 2023-02-27

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据专题--Hive 与 impala相关的知识，希望对你有一定的参考价值。

参考技术A 由FaceBook开发，贡献给APache。

Hive是基于Hadoop的一个数据仓库工具，依赖HDFS完成数据存储，依赖于MapReduce处理数据。其本身并不存储数据。Hive 定义了简单的类 SQL 查询语言，称为 HQL，通过编写HiveQL语句，运行具体的MapReduce任务。

1）采用批处理方式处理海量数据。

2）提供了ETL工具。

Hive的体系结构可以分为以下几部分：

Hive 对外提供了三种服务模式，即 Hive 命令行模式（CLI），Hive 的 Web 模式（WUI），Hive 的远程服务（Client）。Hive 远程服务通过 JDBC 等访问来连接 Hive ，这是日常中最需要的方式。

元数据存储在mysql或Derby中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。

由Cloudera公司开发的新型查询系统。

Impala元数据存储在Hive中，不能独立运行，依赖Hive元数据。

Impala执行查询时，不需要转换成MapReduce任务，可以直接与HDFS或HBase进行交互查询，查询效率远远高于Hive。

Impala采用与Hive相同的SQL语法，ODBC驱动程序和用户接口。

Impala主要由Impalad， State Store和CLI组成，执行查询的时候分布在多个节点上进行。

Impalad：负责协调客户端提交变得查询的执行，与HDFS的数据节点运行在同一节点上。

State Store：负责收集分布在集群中各个Impalad进城的资源信息用于查询调度。

CLI：提供给用户查询使用的命令行工具（Impala Shell使用python实现），同时Impala还提供了Hue，JDBC， ODBC使用接口。

DBeaver中配置的使用JDBC来访问。

其具体执行过程如下：

1、试用场景：

Hive：跑批

Impala：实时交互

2、计算方式：

Hive：依赖于MapReduce框架

Impala：直接分发执行计划到各个Impalad执行查询

3、资源使用情况：

Hive执行过程中，若内存放不下所有数据则会使用外存。

Impala只用内存。

以上是关于大数据专题--Hive 与 impala的主要内容，如果未能解决你的问题，请参考以下文章

大数据技术专题篇MapReduce shuffle过程详解

青出于蓝 | Impala和Hive

“红亚杯”-大数据环境搭建与数据采集技能线上专题赛赛题

专题丨企业级大数据应用顶层架构设计探索

大数据Kudu：Kudu与Impala整合

大数据Presto：Presto优化与Impala对比