大数据-hive理论

Posted 2021-03-17 bug修复中

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据-hive理论相关的知识，希望对你有一定的参考价值。

本章分享的目录：

　　1：基础

　　　　第一节：简介与原理

　　2：设置用户及权限赋予

　　　　第二节：角色权限

　　3：安装，配置，连接

　　　　第三节：部署hive

　　4：参数动态设置

　　　　第四节：hive参数设置

第一节：简介与原理

　　简介：

　　　　数据仓库，对海量数据的离线处理（以HiveQL的形式，生成MR任务）；

　　核心组件：

　　　　解释器，编译器，优化器；

　　举例：

　　　　HDFS或HBase ---映射--> HIVE表 -- HiveQL--> (MR)HDFS

　　存储：

　　　　元数据(metadata)------>关系型数据库

　　　　　　因为hdfs中存储的数据文件都是数据不包括数据的头等信息，所以元数据信息存储在关系型数据库。

　　　　数据文件------>hdfs

　　主要过程：

　　　　Hive --------HQL-------->MR（过程如下）

　　　　　　client发送请求 -------------->

　　　　　　　　driver驱动 -----> CLI（启动hive副本） ------>存储matedata ----->生成MR(hadoop执行)---->driver(结果返回)

　　　　　　　　　　　　　　　　　　　　　　　　　 ------>compiler（解释器）

　　　　　　--------------> client接收结果

　　　　compiler：解释，编译，优化

　　　　　　Parser(分析程序)：HQL ---> 抽象语法树

　　　　　　Semantic Analyzer(语法分析器)：抽象语法树 ---> 查询块

　　　　　　Logical plan generator(逻辑计划生产器)：查询块 ---> 逻辑查询计划

　　　　　　Logical optimizer(逻辑优化程序)：优化(重写)逻辑计划

　　　　　　Physical plan generator(物理计划生产器)：逻辑计划 ---> 物理计划(MR)

　　　　　　Physical optimizer(物理优化程序)：优化MR

第二节：角色权限

　　（1）：权限管理

　　　　1：三种授权模型：

　　　　　　1、Storage Based Authorization in the Metastore Server

　　　　　　　　基于存储的授权 - 可以对Metastore中的元数据进行保护，但是没有提供更加细粒度的访问控制（例如：列级别、行级别）。

　　　　　　2、SQL Standards Based Authorization in HiveServer2（推荐使用该模式）

　　　　　　　　基于SQL标准的Hive授权 - 完全兼容SQL的授权模型。

　　　　　　3、Default Hive Authorization (Legacy Mode)

　　　　　　　　hive默认授权 - 设计目的仅仅只是为了防止用户产生误操作，而不是防止恶意用户访问未经授权的数据

　　　　2：SQL Standards Based Authorization in HiveServer2（推荐使用该模式）

　　　　　　（1）完全兼容SQL的授权模型

　　　　　　（2）除支持对于用户的授权认证，还支持角色role的授权认证

　　　　　　　　　　role可理解为是一组权限的集合，通过role为用户授权

　　　　　　　　　　一个用户可以具有一个或多个角色

　　　　　　　　　　默认包含另种角色权限：public、admin

　　　　　　（3）限制（如果开启了权限管理之后）：

　　　　　　　　　　1、启用当前认证方式之后，dfs, add, delete, compile, and reset等命令被禁用。

　　　　　　　　　　2、通过set命令设置hive configuration的方式被限制某些用户使用。

　　　　　　　　　　（可通过修改配置文件hive-site.xml中hive.security.authorization.sqlstd.confwhitelist进行配置）

　　　　　　　　　　3、添加、删除函数以及宏的操作，仅为具有admin的用户开放。

　　　　　　　　　　4、用户自定义函数（开放支持永久的自定义函数），可通过具有admin角色的用户创建，其他用户都可以使用。

　　　　　　　　　　5、Transform功能被禁用。

　　　　　　（4）如何开启权限

　　　　　　　　1、在hive服务端修改配置文件hive-site.xml添加以下配置内容：

<property>
　　<name>hive.security.authorization.enabled</name>
　　<value>true</value>
</property>

<property>
　　<name>hive.server2.enable.doAs</name>
　　<value>false</value>
</property>

<property>
　　<name>hive.users.in.admin.role</name>
　　<value>root</value>
</property>

<property>
　　<name>hive.security.authorization.manager</name>
　　<value>org.apache.hadoop.hive.ql.security.authorization.plugin.sqlstd.SQLStdHiveAuthorizerFactory</value>
</property>

<property>
　　<name>hive.security.authenticator.manager</name>
　　<value>org.apache.hadoop.hive.ql.security.SessionStateUserAuthenticator</value>
</property>

　　　　　　2、服务端启动hiveserver2；客户端通过beeline进行连接

　　（2）：权限管理

　　　　beeline连接之后，Hive权限管理

　　　　1、角色的添加、删除、查看、设置：（角色）

　　　　　　CREATE ROLE role_name; -- 创建角色

　　　　　　DROP ROLE role_name; -- 删除角色

　　　　　　SET ROLE (role_name|ALL|NONE); -- 设置角色

　　　　　　SHOW CURRENT ROLES; -- 查看当前具有的角色

　　　　　　SHOW ROLES; -- 查看所有存在的角色

　　　　说明：root有两种角色：public,admin，默认的是public需要添加admin：set role admin，这个时候就是admin了。然后就会进行一些操作了。

　　　　2、用户的插入、移除、查看（用户）：

　　　　　　SELECT privilege – gives read access to an object.

　　　　　　INSERT privilege – gives ability to add data to an object (table).

　　　　　　UPDATE privilege – gives ability to run update queries on an object (table).

　　　　　　DELETE privilege – gives ability to delete data in an object (table).

　　　　　　ALL PRIVILEGES – gives all privileges (gets translated into all the above privileges).

　　　　3、权限的授予、移除、查看（给角色、给用户）

　　　　　　3.1　将权限授予某个用户、角色：

　　　　　　　　语法：

　　　　　　　　　　GRANT role_name [, role_name] ...

　　　　　　　　　　TO principal_specification [, principal_specification] ...

　　　　　　　　　　[ WITH ADMIN OPTION ];

　　　　　　　　　　principal_specification

　　　　　　　　　　: USER user

　　　　　　　　　　 | ROLE role

　　　　　　　　实例：grant admin(权限) to role test(角色) / user test(用户);

　　　　　　3.2　移除某个用户、角色的权限：

　　　　　　　　语法：

　　　　　　　　　　REVOKE [ADMIN OPTION FOR] role_name [, role_name] ...

　　　　　　　　　　FROM principal_specification [, principal_specification] ... ;

　　　　　　　　　　principal_specification

　　　　　　　　　　 : USER user

　　　　　　　　　　 | ROLE role

　　　　　　　　实例：revoke admin from role test(角色) / user test(用户);

　　　　　　3.3　查看授予某个用户、角色的权限列表

　　　　　　　　语法：

　　　　　　　　　　SHOW ROLE GRANT (USER|ROLE) principal_name;

　　　　　　　　实例：

　　　　　　　　　　查看用户、角色下的角色：

　　　　　　　　　　　　show role grant role test; 查看的是角色的权限

　　　　　　　　　　　　show role grant user test; 查看的是用户的权限

　　　　　　　　　　查看权限下的用户、角色：

　　　　　　　　　　　　SHOW PRINCIPALS role_name;

第三节：部署hive

　　三种搭建模式：

　　　　1：元数据存储在内存数据库(不用)

　　　　2：网络连接到数据库(常用)

　　　　3：远程服务器模式(解耦：只需要访问MetaStoreServer，不需要知道后面连的是那种关系型数据库)

　　安装过程：

　　　　1：安装mysql

　　　　　　Yum instail mysql-server

　　　　　　启动

　　　　　　Service mysqld start

　　　　　　开机启动

　　　　Chkconfig mysqld on

　　　　　　Mysql授权

　　　　　　grant all privileges on *.* to ‘root’@\'%’ identified by ‘youpassword’ with grant option

　　　　　　删除其他

　　　　　　Delete from user where host != ‘root’

　　　　　　刷新权限

　　　　　　Flush privileges

　　　　　　Mysql -u -p

　　　　　　导入jar

　　　　　　　　导入mysql的连接驱动包，jline包到lib下

　　　　　　查看test表的详细信息(hive的)

　　　　　　　　desc formatted test;

　　2：远程服务器模式：

　　　　服务端(连接数据库)：

　　　　配置 hive-site.xml

<property>  
　　<name>hive.metastore.warehouse.dir</name>  本地表的默认位置
　　<value>/user/hive/warehouse</value>  
</property>  

<property>  
　　<name>javax.jdo.option.ConnectionURL</name>  
　　<value>jdbc:mysql://192.168.57.6:3306/hive?createDatabaseIfNotExist=true</value>  
</property>  

<property>  
　　<name>javax.jdo.option.ConnectionDriverName</name>  
　　<value>com.mysql.jdbc.Driver</value>  
</property>     

<property>  
　　<name>javax.jdo.option.ConnectionUserName</name>  
　　<value>root</value>  
</property>  

<property>  
　　<name>javax.jdo.option.ConnectionPassword</name>  
　　<value>123456</value>  
</property>

　　　　客户端：

<property>  
　　<name>hive.metastore.warehouse.dir</name>  
　　<value>/user/hive/warehouse</value>  
</property>  

<property>  
　　<name>hive.metastore.uris</name>  
　　<value>thrift://node02:9083</value>  
</property>

　　　　配置hive高可用（推荐方式：HAProxy，可以：zk）

　　　　配置：其中一台

<property>  
　　<name>hive.metastore.warehouse.dir</name>  
　　<value>/user/hive/warehouse</value>  
</property>  

<property>  
　　<name>javax.jdo.option.ConnectionURL</name>  
　　<value>jdbc:mysql://node01:3306/hive?createDatabaseIfNotExist=true</value>  
</property>  

<property>  
　　<name>javax.jdo.option.ConnectionDriverName</name>  
　　<value>com.mysql.jdbc.Driver</value>  
</property>     

<property>  
　　<name>javax.jdo.option.ConnectionUserName</name>  
　　<value>root</value>  
</property>  

<property>  
　　<name>javax.jdo.option.ConnectionPassword</name>  
　　<value>123456</value>  
</property>

<property>
　　<name>hive.server2.support.dynamic.service.discovery</name>
　　<value>true</value>
</property>

<property>
　　<name>hive.server2.zookeeper.namespace</name> //在zk中的文件夹 查看zkCil.sh ls /
　　<value>hiveserver2_zk</value>
</property>

<property>
　　<name>hive.zookeeper.quorum</name>
　　<value>node1:2181,node2:2181,node3:2181</value>
</property>

<property>
　　<name>hive.zookeeper.client.port</name>
　　<value>2181</value>
</property>

<property>
　　<name>hive.server2.thrift.bind.host</name> //所在IP
　　<value>node2</value>
</property>

<property>
　　<name>hive.server2.thrift.port</name>
　　<value>10001</value>
</property>

　　　　启动方式：

　　　　1、服务端 hivemetastore：端口：9083

　　　　　　hive --service metastore

　　　　　　客户端：

　　　　　　hive

　　　　2、服务端 hiveserver2(支持多个客户端的连接) 端口：10000

　　　　　　hiveserver2

　　　　　　客户端 beeline方式

　　　　　　beeline

　　　　　　!connect jdbc:hive2://node4:10000/default root 123（用户名密码不需要，但是随便给都行，不给不行）

　　　　　　或者

　　　　　　beeline -u jdbc:hive2://node4:10000/default（这个不需要用户名密码）

　　　　3、代码JDBC连接

第四节：hive参数设置

　　1：例子

　　　　hiveconf hive.cli.print.header=true（可以看见hive表的头部信息）

　　2：设置方式

　　　　（1）在启动cli时候（只在当前会话有效）

　　　　　　hive --hiveconf hive.cli.print.header=true

　　　　（2）在已经启动的cli下（只在当前会话有效）

　　　　　　set hive.cli.print.header=true;

　　　　　　set hive.cli.print.header //查看这个值目前是什么

　　　　（3）在家目录下的 .hiverc 文件（永久有效），如果没有则创建该文件，在启动cli时候回加载这个文件中的配置

　　　　　　在文件中set hive.cli.print.header=true

　　　　　　~/.hivehistory 这个文件可以看见hive执行的历史指令

　　　　（4）hive-site.xml中配置

以上是关于大数据-hive理论的主要内容，如果未能解决你的问题，请参考以下文章