大数据-hive理论

Posted bug修复中

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据-hive理论相关的知识,希望对你有一定的参考价值。

本章分享的目录:

  1:基础

    第一节:简介与原理

  2:设置用户及权限赋予

    第二节:角色权限

  3:安装 ,配置,连接

    第三节:部署hive

  4:参数动态设置

    第四节:hive参数设置

   

第一节:简介与原理

  简介:

    数据仓库,对海量数据的离线处理(以HiveQL的形式,生成MR任务);

  核心组件:

    解释器,编译器,优化器;

  举例:

    HDFS或HBase ---映射--> HIVE表 -- HiveQL--> (MR)HDFS

  存储:

    元数据(metadata)------>关系型数据库

      因为hdfs中存储的数据文件都是数据不包括数据的头等信息,所以元数据信息存储在关系型数据库。

    数据文件------>hdfs

  主要过程:

     

    Hive --------HQL-------->MR(过程如下)

      client发送请求 -------------->

        driver驱动 ----->  CLI(启动hive副本) ------>存储matedata   ----->生成MR(hadoop执行)---->driver(结果返回)

                          ------>compiler(解释器)

      --------------> client接收结果

     compiler:解释,编译,优化

      Parser(分析程序):HQL ---> 抽象语法树

      Semantic Analyzer(语法分析器):抽象语法树 ---> 查询块

      Logical plan generator(逻辑计划生产器):查询块 ---> 逻辑查询计划

      Logical optimizer(逻辑优化程序):优化(重写)逻辑计划

      Physical plan generator(物理计划生产器):逻辑计划 ---> 物理计划(MR)

      Physical optimizer(物理优化程序):优化MR

  

第二节:角色权限

  (1):权限管理

    1:三种授权模型:

      1、Storage Based Authorization in the Metastore Server

        基于存储的授权 - 可以对Metastore中的元数据进行保护,但是没有提供更加细粒度的访问控制(例如:列级别、行级别)。

      2、SQL Standards Based Authorization in HiveServer2(推荐使用该模式

        基于SQL标准的Hive授权 - 完全兼容SQL的授权模型。

      3、Default Hive Authorization (Legacy Mode)

        hive默认授权 - 设计目的仅仅只是为了防止用户产生误操作,而不是防止恶意用户访问未经授权的数据

    2:SQL Standards Based Authorization in HiveServer2(推荐使用该模式

      (1)完全兼容SQL的授权模型

      (2)除支持对于用户的授权认证,还支持角色role的授权认证

          role可理解为是一组权限的集合,通过role为用户授权

          一个用户可以具有一个或多个角色

          默认包含另种角色权限:public、admin

       (3)限制(如果开启了权限管理之后):

          1、启用当前认证方式之后,dfs, add, delete, compile, and reset等命令被禁用。

          2、通过set命令设置hive configuration的方式被限制某些用户使用。

          (可通过修改配置文件hive-site.xml中hive.security.authorization.sqlstd.confwhitelist进行配置)

          3、添加、删除函数以及宏的操作,仅为具有admin的用户开放。

          4、用户自定义函数(开放支持永久的自定义函数),可通过具有admin角色的用户创建,其他用户都可以使用。

          5、Transform功能被禁用。

       (4)如何开启权限

        1、在hive服务端修改配置文件hive-site.xml添加以下配置内容:

<property>
  <name>hive.security.authorization.enabled</name>
  <value>true</value>
</property> <property>   <name>hive.server2.enable.doAs</name>   <value>false</value> </property> <property>   <name>hive.users.in.admin.role</name>   <value>root</value> </property> <property>   <name>hive.security.authorization.manager</name>   <value>org.apache.hadoop.hive.ql.security.authorization.plugin.sqlstd.SQLStdHiveAuthorizerFactory</value> </property> <property>   <name>hive.security.authenticator.manager</name>   <value>org.apache.hadoop.hive.ql.security.SessionStateUserAuthenticator</value> </property>

      2、服务端启动hiveserver2;客户端通过beeline进行连接

  (2):权限管理

    beeline连接之后,Hive权限管理

    1、角色的添加、删除、查看、设置:(角色)

      CREATE ROLE role_name;  -- 创建角色

      DROP ROLE role_name;  -- 删除角色

      SET ROLE (role_name|ALL|NONE);  -- 设置角色

      SHOW CURRENT ROLES;  -- 查看当前具有的角色

      SHOW ROLES;  -- 查看所有存在的角色

     说明:root有两种角色:public,admin,默认的是public需要添加admin:set role admin,这个时候就是admin了。然后就会进行一些操作了。

     2、用户的插入、移除、查看(用户)

      SELECT privilege – gives read access to an object.

      INSERT privilege – gives ability to add data to an object (table).

      UPDATE privilege – gives ability to run update queries on an object (table).

      DELETE privilege – gives ability to delete data in an object (table).

      ALL PRIVILEGES – gives all privileges (gets translated into all the above privileges).

     3、权限的授予、移除、查看(给角色、给用户)

      3.1 将权限授予某个用户、角色:

        语法:

          GRANT role_name [, role_name] ...

          TO principal_specification [, principal_specification] ...

          [ WITH ADMIN OPTION ];

          principal_specification

            : USER user

            | ROLE role

         实例:grant admin(权限) to role test(角色) / user test(用户);

       3.2 移除某个用户、角色的权限:

        语法:

          REVOKE [ADMIN OPTION FOR] role_name [, role_name] ...

          FROM principal_specification [, principal_specification] ... ;

          principal_specification

            : USER user

            | ROLE role

         实例:revoke admin from role test(角色)  / user test(用户);

 

      3.3 查看授予某个用户、角色的权限列表

        语法:

          SHOW ROLE GRANT (USER|ROLE) principal_name;

        实例:

          查看用户、角色下的角色:

            show role grant role test; 查看的是角色的权限

            show role grant user test; 查看的是用户的权限

          查看权限下的用户、角色:

            SHOW PRINCIPALS role_name;

第三节:部署hive

   三种搭建模式:

    1:元数据存储在内存数据库(不用)

    2:网络连接到数据库(常用)

      

    3:远程服务器模式(解耦:只需要访问MetaStoreServer,不需要知道后面连的是那种关系型数据库)

       

 

  安装过程:

    1:安装mysql

      Yum instail mysql-server

      启动

      Service mysqld start

      开机启动

    Chkconfig mysqld on

      Mysql授权

      grant all privileges on *.* to ‘root’@\'%’ identified by ‘youpassword’ with grant option

      删除其他

      Delete from user where host != ‘root’

      刷新权限

      Flush privileges

      登录

      Mysql -u -p

 

      导入jar

        导入mysql的连接驱动包,jline包到lib下

 

      查看test表的详细信息(hive的)

        desc formatted test;

 

  2:远程服务器模式:

    服务端(连接数据库):

    配置 hive-site.xml

<property>  
  <name>hive.metastore.warehouse.dir</name>  本地表的默认位置
  <value>/user/hive/warehouse</value>  
</property>  

<property>  
  <name>javax.jdo.option.ConnectionURL</name>  
  <value>jdbc:mysql://192.168.57.6:3306/hive?createDatabaseIfNotExist=true</value>  
</property>  

<property>  
  <name>javax.jdo.option.ConnectionDriverName</name>  
  <value>com.mysql.jdbc.Driver</value>  
</property>     

<property>  
  <name>javax.jdo.option.ConnectionUserName</name>  
  <value>root</value>  
</property>  

<property>  
  <name>javax.jdo.option.ConnectionPassword</name>  
  <value>123456</value>  
</property>

    客户端:

<property>  
  <name>hive.metastore.warehouse.dir</name>  
  <value>/user/hive/warehouse</value>  
</property>  

<property>  
  <name>hive.metastore.uris</name>  
  <value>thrift://node02:9083</value>  
</property>  

    配置hive高可用(推荐方式:HAProxy,可以:zk)

    配置:其中一台

<property>  
  <name>hive.metastore.warehouse.dir</name>  
  <value>/user/hive/warehouse</value>  
</property>  

<property>  
  <name>javax.jdo.option.ConnectionURL</name>  
  <value>jdbc:mysql://node01:3306/hive?createDatabaseIfNotExist=true</value>  
</property>  

<property>  
  <name>javax.jdo.option.ConnectionDriverName</name>  
  <value>com.mysql.jdbc.Driver</value>  
</property>     

<property>  
  <name>javax.jdo.option.ConnectionUserName</name>  
  <value>root</value>  
</property>  

<property>  
  <name>javax.jdo.option.ConnectionPassword</name>  
  <value>123456</value>  
</property>

<property>
  <name>hive.server2.support.dynamic.service.discovery</name>
  <value>true</value>
</property>

<property>
  <name>hive.server2.zookeeper.namespace</name> //在zk中的文件夹 查看zkCil.sh ls /
  <value>hiveserver2_zk</value>
</property>

<property>
  <name>hive.zookeeper.quorum</name>
  <value>node1:2181,node2:2181,node3:2181</value>
</property>

<property>
  <name>hive.zookeeper.client.port</name>
  <value>2181</value>
</property>

<property>
  <name>hive.server2.thrift.bind.host</name> //所在IP
  <value>node2</value>
</property>

<property>
  <name>hive.server2.thrift.port</name>
  <value>10001</value>
</property>

    启动方式:

    1、 服务端 hivemetastore:端口:9083

      hive --service metastore

      客户端:

      hive

    2、 服务端 hiveserver2(支持多个客户端的连接) 端口:10000

      hiveserver2

      客户端 beeline方式

      beeline

      !connect jdbc:hive2://node4:10000/default root 123(用户名密码不需要,但是随便给都行,不给不行)

      或者

      beeline -u jdbc:hive2://node4:10000/default(这个不需要用户名密码)

     3、 代码JDBC连接

       

 

第四节:hive参数设置

  1:例子

    hiveconf hive.cli.print.header=true(可以看见hive表的头部信息)

  2:设置方式

    (1)在启动cli时候(只在当前会话有效)

      hive --hiveconf hive.cli.print.header=true

    (2)在已经启动的cli下(只在当前会话有效)

      set hive.cli.print.header=true;

      set hive.cli.print.header //查看这个值目前是什么

    (3)在家目录下的 .hiverc 文件(永久有效),如果没有则创建该文件,在启动cli时候回加载这个文件中的配置

      在文件中set hive.cli.print.header=true

      ~/.hivehistory 这个文件可以看见hive执行的历史指令

    (4)hive-site.xml中配置

以上是关于大数据-hive理论的主要内容,如果未能解决你的问题,请参考以下文章

实操 | Hive 数据倾斜问题定位排查及解决

实操 | Hive 数据倾斜问题定位排查及解决

Apache Hive 基本理论与安装指南

Hive三Hive理论

大数据之hiveSQL

有人可以解释啥是 SVN 平分算法吗?理论上和通过代码片段[重复]