Hive学习01-快速了解hive以及常见的面试问题

Posted 2021-12-12 students

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hive学习01-快速了解hive以及常见的面试问题相关的知识，希望对你有一定的参考价值。

cloudera公司发行的CDH中 
hive的有三种角色：gateway、hiveserver2、hive metastore三种角色
其中hive metastore主要用于客户端连接 默认端口
hive  server2 主要用于jdbc连接（很多bi产品都靠jdbc连接，比如hue，帆软等软件）
gateway 是client的一个代理，主要用于更新hive的客户端配置

apache社区的hive中也分为客户端，hiveserver2和hive metastore
启动 metastore ：   hive --service metastore 

启动hive ：hive --service hiveserver2

理论：

什么是hive：

1. Hive旨在实现轻松的数据汇总，即时查询和分析大量数据。

2. 它提供了SQL，使用户可以轻松地进行临时查询，汇总和数据分析。

3. Hive可以使用用户定义函数（UDF）。

4. 使用率：实际开发中，80%操作使用Hive完成，20%使用MapReduce。

5. 与MapReduce相比，Hive特点：稳定、代码精简、易于维护。

6. HiveQL：未严格实现SQL-92标准。

7. 本质：将HiveQL转化为一个或多个MapReduce作业并在集群上运行，但并不是所有HiveQL都会转为MapReduce作业。

常见问题：

1、hive 内部表：加载数据到 hive 所在的 hdfs 目录，删除时，元数据和数据文件都删除
　 hive外部表：不加载数据到 hive 所在的 hdfs 目录，删除时，只删除表结构

2、分区作用：防止数据倾斜

3、sort by和order by之间的区别？distribute by？cluster by？ group by？

sort by 是单个reduce内部的排序；

order by 是全局排序，只触发一个reduce

distribute by ：按照指定的字段对数据进行划分输出到不同的reduce中，通常与sort by 连用

cluster by ：除了具有distribute by 的功能外还兼具sort by 的功能

group  by 通常用于做聚合函数操作 count（*） sum（xx）

4.Hive中追加导入数据的4种方式是什么

#hdfs
load data inpath ‘hdfs://xxx/xxx‘ into (overwrite) table a
#本地
load data local inpath ‘/xxx/xx‘ into (overwrite) table a
#查询导入
create table student as select * from student1;
#查询结果导入
insert (overwrite) into table student select user_id,user_name from student2;

5.hive导出数据

#导出到hdfs 会递归创建文件夹 (注意文件夹如果存在，数据会被清空)高危操作
insert overwrite directory ‘/liuzhimin/test2/a‘ row format delimited fields terminated by ‘\t‘ select * from u_data_new;
#导出到本地（高危操作）
insert overwrite local directory ‘/home/dip/a‘ row format delimited fields terminated by ‘\t‘ select * from u_data_new;
#bash
hive -e "use cslc; select * from u_data_new ;"> a.txt

6.数据倾斜怎么办？

倾斜原因： map输出数据按Key Hash分配到reduce中,由于key分布不均匀、或者业务数据本身的特点。等原因造成的reduce上的数据量差异过大。key分布不均匀、业务数据本身的特性、SQL语句造成数据倾斜；

解决办法：①参数调节：
set hive.map.aggr=true
set hive.groupby.skewindata=true
有数据倾斜的时候进行负载均衡，当选项设定为true,生成的查询计划会有两个MR Job。第一个MR Job中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，
并输出结果，这样处理的结果是相同Group By Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；
第二个MR Job在根据预处理的数据结果按照 Group By Key 分布到Reduce中(这个过程可以保证相同的 Group By Key 被分布到同一个Reduce中)，最后完成最终的聚合操作。

②SQL语句调节：
大小表join，小表进内存；

大表Join大表：把空值的Key变成一个字符串加上一个随机数，把倾斜的数据分到不同的reduce上，由于null值关联不上，处理后并不影响最终的结果

count distinct大量相同特殊值：count distinct时，将值为空的情况单独处理，如果是计算count distinct，可以不用处理，直接过滤，在做后结果中加1。
如果还有其他计算，需要进行group by，可以先将值为空的记录单独处理，再和其他计算结果进行union.