Hive入门

Posted liuguangshou123

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hive入门相关的知识,希望对你有一定的参考价值。

Hive是个啥?

用类似sql语句实现对分布式存储系统的数据读写、管理功能。

HIVE特点

1.使用类sql语句分析大数据,避免MapReduce程序分析数据

2.数据存储在HDFS上,不是HIVE上

3.Hive将数据映射成数据库和一张张表,库和表的元数据信息一般存在关系型数据库。

元数据:描述数据的数据

举例:

比如一本书,书的书名、isbn号、作者、出版社、目录等信息就是一本书的元数据。

元数据的分类:

描述性元数据:描述对象的基本信息。

结构性元数据:描述对象的内部结构和关系。

管理性元数据:记录有助于管理对象的信息。

参考性元数据:描述了统计数据的内容和质量。

统计性元数据:描述收集,处理或产生统计数据过程

构造元数据:

使用“词汇表”构造语句。词汇表根据明确的行业标准构造。

元数据语法:

一般建议的方法

1.主语-谓词-对象

2.类-属性-值

hive的底层存储:

hive的数据是存储在HDFS上,hive中的库和表可以看作是对HDFS上数据的一个映射。所以hive必须运行在一个hadoop集群。

hive语句背后的执行过程:

hive中的执行器,将最终要要执行的MapReduce程序放到YARN上以一系列job进行执行。

YARN是啥?

hadoop的一个资源管理系统。

 

以上是关于Hive入门的主要内容,如果未能解决你的问题,请参考以下文章

Hive从入门到精通8:Hive自定义函数(UDF)

Hive入门

Hive入门

Hive入门

大数据入门-五分钟读懂Hive

Hive入门