60分钟内从零起步驾驭Hive实战

Posted 2020-06-23

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了60分钟内从零起步驾驭Hive实战相关的知识，希望对你有一定的参考价值。

内容：

1、Hive本质解析；

2、Hive安装实战；

3、使用Hive操作搜索引擎数据实战；

==========Hive本质到底是什么？============

1、Hive是分布式数据仓库，同时又是查询引擎，所以 Spark SQL取代只是Hive 查询引擎，在企业实际生产环境下 Hive + Spark SQL是目前最为经典的数据分析组合；

2、Hive本身就是一个简单单机版本的软件，主要负责：

1) 把HQL翻译成Mapper(s)-Reducer-Mapper(s)的代码；并且可能产生很多MapReduce的Job；

2) 把生产的MapReduce代码及相关资源打包成为Jar并发布到Hadoop集群中且进行运行（这一切都是自动的）；

3、Hive本身的架构如下所示：

==========Hive安装和配置实战============

1、我们使用的 Hive 1.2.1版本；

2、Hive默认情况下放元数据的是 Derby，遗憾的是Derby 是单用户，所以在生产环境下一般会采用支持多用户的数据库来进行 Meta Store，且进行Master-Slaves 主从读写分离和备份；我们最常使用 mysql

3、在hive-site.xml中指定Hive数据仓库的具体存储：

<name>hive.metastore.warehouse.dir</name>

<value>/user/hive/warehouse</value>

<description>location of default database for the warehouse</description>

</property>

4、MySQL的安装和配置；

5、Hive的表有两种基本类型：一种内部表（这种表数据属于 Hive本身，言外之意是如果原来的数据在 HDFS的其它地方，此时数据会通过 HDFS移动到Hive 数据仓库所在的目录，如果删除 Hive中的该表的话数据和元数据均会被删除）另外一种属于外部表（这种表数据不属于 Hive数据仓库，元数据中会表达具体数据在哪里，使用的时候和内部表的使用是一样的，只是如果通过 Hive去删除的话，此时删除的只是元数据，本没有删除数据本身）；