hadoop中hive原理及安装

Posted ItStar

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hadoop中hive原理及安装相关的知识,希望对你有一定的参考价值。




hive是什么(官网概念)

Apache Hive™数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据上。提供命令行工具和JDBC驱动程序,用于将用户连接到Hive。


Hive 是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库;一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制;Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据;允许用Java开发自定义的函数UDF来处理内置无法完成的复杂的分析工作;


Hive没有专门的数据格式(分隔符等可以自己灵活的设定);

适用场景

Hive不适用于在线事务处理。  它最适用于传统的数据仓库任务

hive的执行延迟比较高,因为hive常用于数据分析的,对实时性要求不高;

hive优势在于处理大数据,对于处理小数据没有优势,因为hive的执行延迟比较高。

Hive工作原理

hadoop中hive原理及安装

1. Execute QueryHive接口,如命令行或Web UI发送查询驱动程序(任何数据库驱动程序,如JDBC,ODBC等)来执行。

2. Get Plan

在驱动程序帮助下查询编译器,分析查询检查语法和查询计划或查询的要求。

3. Get Metadata

编译器发送元数据请求到Metastore(任何数据库)。

4. Send Metadata

Metastore发送元数据,以编译器的响应。

5. Send Plan

编译器检查要求,并重新发送计划给驱动程序。到此为止,查询解析和编译完成。

6. Execute Plan

驱动程序发送的执行计划到执行引擎。

7. Execute Job

在内部,执行作业的过程是一个MapReduce工作。执行引擎发送作业给JobTracker,在名称节点并把它分配作业到TaskTracker,这是在数据节点。在这里,查询执行MapReduce工作。

7.1 Metadata Ops

与此同时,在执行时,执行引擎可以通过Metastore执行元数据操作。

8 . Fetch Result

执行引擎接收来自数据节点的结果。

9. Send Results

执行引擎发送这些结果值给驱动程序。

10. Send Results


驱动程序将结果发送给Hive接口。

hadoop中hive原理及安装

hadoop中实际应用 

    通过上面流程解释,要想在hadoop中使用hive, 至少需要安装hive和Metastore(任何数据库)本文安装mysql

    1 , 安装mysql

    下载linux环境下的mysql安装包,需要两个,一个是server端的,一个是client端的。

    查询linux机器上默认安装的mysql或者你以前安装的mysql, 暴力卸载之 。

    rpm -e mysql-libs-5.xxxxxx_i686  --nodeps

    执行安装命令

    rpm -ivh Mysql-server-xxx.i386.rpm

    rpm -ivh Mysql-client-xxx.i386.rpm   

    执行命令初始化设置mysql

    /usr/bin/mysql_secure_installation

       

hadoop中hive原理及安装

       使用客户端登陆

       mysql -uroot -proot

       登陆成功后输入命令:(授予mysql远程用户连接的权限)

       GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'root' WITH GRANT OPTION;

     使用远程客户端连接(navicat 或 Advanced Query Tools等等工具  )我用的navicat,  如图自行领悟。

       


到这里hive就安装搭建完成了!


以上是关于hadoop中hive原理及安装的主要内容,如果未能解决你的问题,请参考以下文章

hadoop安装及hive安装

Hadoop详解——Hive的原理和安装配置和UDF,flume的安装和配置以及简单使用,flume+hive+Hadoop进行日志处理

Hadoop详解——Hive的原理和安装配置和UDF,flume的安装和配置以及简单使用,flume+hive+Hadoop进行日志处理

hive安装部署及使用

搭建hadoop+spark+hive环境(配置安装hive)

centos7 分布式集群hadoop与hive安装