分布式数据仓库-Hive

Posted RT百宝袋

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了分布式数据仓库-Hive相关的知识,希望对你有一定的参考价值。

          一、Hive的产生背景          

MapReduce进行数据处理分析门槛过高,需要JAVA面向MR API进行编程。 思考:能否让用户更简单地从现有数据基础架构转到Hadoop上来?答案是可以的。


          二、Hive简单介绍          

(1)Hive是基于Hadoop的 数据仓库工具 ,可 将结构化数据文件映射为一张数据库表 ,并提供SQL查询功能,其将 SQL语句转换为Map Reduce任务运行
(2)Hive 提供一系列数据仓库工具 ,将数据提取转化加载(ETL),是一种存储、查询、分析大规模数据的 机制


          三、Hive架构介绍          

基础概念:

(1)Hive元数据:表名、表的列和分区及其属性、表的属性,表的数据所在目录;

(2)解释器、优化器、编译器:将HQL语句转化成MapReduce语句;


          四、Hive的特点          

(1)查询语言:HQL

(2)数据存储:HDFS

(3)执行:MapReduce

(4)执行延迟:高

(5)处理数据规模:大

(6)索引:0.8版本后加入


          五、Hive应用场景          

Hive只适合做批量数据统计分析

以上是关于分布式数据仓库-Hive的主要内容,如果未能解决你的问题,请参考以下文章

3. Hive分布式数据仓库华为HCIA-BigData

分布式数据仓库-Hive

一个数据仓库时代开始--Hive

HIVE---基于Hadoop的数据仓库工具讲解

技术贴hadoop之hive数据仓库的常用语句,请随时翻阅

《企业Hive数据仓库的搭建之路》互联网行业从业十年的大拿,全程案例式教学