Hive基础架构

Posted 2021-01-05 cindy-zl24

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hive基础架构相关的知识，希望对你有一定的参考价值。

Hive

由Facebook开源用于解决海量结构化日志的数据统计：

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能;

构建在Hadoop之上的数据仓库：

* 使用HQL作为查询接口
* 处理的数据存储在HDFS

* 分析数据底层实现MapReduce

* 执行程序运行的YARN

本质是:将HQL转化成MapReduce程序

灵活性和扩展性比较好，支持UDF,自定义存储格式等。

适合离线数据处理。

Hive架构如下图：

技术分享图片

> 用户接口：Client

CLI(hive shell)、JDBC/ODBC(java访问hive)，WEBUI(浏览器访问hive)

> 元数据：Metastore

元数据包括：表名、表所属的数据库（默认是default)、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；

默认存储在自带的 derby数据库中，推荐使用采用mysql存储Metastore;

>Hadoop

使用HDFS进行存储，使用MapReduce进行计算。

> 驱动器: Driver

包含：解析器、编译器、优化器、执行器;

解析器：将SQL字符串转换成抽象语法树AST，这一步一般都用第二方工具库完成，比如antlr;对AST进行方法分析，比如表是否存在、字段是否存在、SQL语义是否有误（比如select中被判定为聚合的字段在group by 中是否有出现);

编译器：将AST编译成逻辑执行计划；

优化器：对逻辑执行计划进行优化；

执行器：把逻辑执行计划转换成可以运行的物理计划。对Hive来说，就是MR/TEZ/Spark;

Hive优点与使用场景

操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）；

避免了去写MapReduce, 减少开发人员的学习成本；

统一的元数据管理，可与impala/spark等共享元数；

易扩展（hdfs+mapreduce:可以扩展集群规模，支持自定义函数）；

数据的离线处理：比如：日志分析，海量结构化数据离线分析...........

Hive的执行延迟比较高，因此hive常用于数据分析的，对实时性要求不高的场合；

Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高；

以上是关于Hive基础架构的主要内容，如果未能解决你的问题，请参考以下文章