数据分析系统Hive

Posted 2022-12-06 yunpiao123456

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据分析系统Hive相关的知识，希望对你有一定的参考价值。

Hive概述

Hive是由facebook开源，最初用于解决海量结构化的日志数据统计问题。其是构建在Hadoop之上的数据仓库。数据计算使用MR，数据存储使用HDFS。Hive 定义了一种类 SQL 查询语言——HQL。类似SQL，但不完全相同。通常用于进行离线数据处理（采用MapReduce）。可认为Hive是一个HQL-MR的语言翻译器。

上述代码是mapreduce实现的wordcount。但是，利用Hive实现上述功能只需要一行命令。SELECT word, COUNT(*) FROM doc LATERAL VIEW explode(split(text, ' ')) lTable as word GROUP BY word。

Hive典型应用场景

日志分析统计网站一个时间段内的pv、uv多维度数据分析。大部分互联网公司使用Hive进行日志分析，包括百度、淘宝等。其他场景如：海量结构化数据离线分析和低成本进行数据分析（不直接编写MR）。

Hive简单，容易上手提供了类SQL查询语言HQL。为超大数据集设计了计算/扩展能力。MR作为计算引擎，HDFS作为存储系统。其具有统一的元数据管理（HCalalog）。并且可与Pig、Presto等共享。

Hive基本架构

用户接口包括 CLI，JDBC/ODBC，WebUI 。元数据存储（metastore）是默认存储在自带的数据库derby中，线上使用时一般换为mysql 。驱动器（Driver）包括：解释器、编译器、优化器以及执行器。负责将HQL语句翻译为Map/Reduce Job。Hive与Hadoop交互。用 MapReduce 进行计算，用 HDFS 进行存储。