Hive之简单介绍

Posted 2021-10-25 何如千泷

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hive之简单介绍相关的知识，希望对你有一定的参考价值。

Hive 基本概念

Hive 是基于 Hadoop 的一个数据仓库工具，用于解决海量结构化日志的数据统计工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能

Hive 本质：将 HQL 转化成 MapReduce 程序

用户接口：Client
- CLI: command-line interface
- JDBC/ODBC: jdbc 访问 hive
- WEBUI: 浏览器访问 hive
元数据：Metastore
- 表名、表所属的数据库（默认是 default）、表的拥有者、列/分区字段、
  表的类型（是否是外部表）、表的数据所在目录等
Hadoop
- 使用 HDFS 进行存储，使用 MapReduce 进行计算
驱动器：Driver
- 解析器（SQL Parser）：将 SQL 字符串转换成抽象语法树 AST，这一步一般都用第三方工具库完成，比如 antlr；对 AST 进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误
- 编译器（Physical Plan）：将 AST 编译生成逻辑执行计划
- 优化器（Query Optimizer）：对逻辑执行计划进行优化
- 执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于 Hive 来说，就是 MR/Spark。

以上是关于Hive之简单介绍的主要内容，如果未能解决你的问题，请参考以下文章