HiveSQL技术原理优化与面试

Posted 大数据技术团队

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HiveSQL技术原理优化与面试相关的知识,希望对你有一定的参考价值。

TOK_FROM
TOK_TABREF
TOK_TABNAME
dim
dim_region
TOK_INSERT
TOK_DESTINATION
TOK_DIR
TOK_TMP_FILE
TOK_SELECT
TOK_SELEXPR
TOK_ALLCOLREF
TOK_WHERE
=
TOK_TABLE_OR_COL
dt
\'2021-05-23\'

阶段二:语义解析

遍历AST Tree,抽象出查询的基本组成单元QueryBlock:

AST Tree生成后由于其复杂度依旧较高,不便于翻译为mapreduce程序,需要进行进一步抽象和结构化,形成QueryBlock。

QueryBlock是一条SQL最基本的组成单元,包括三个部分:输入源,计算过程,输出。简单来讲一个QueryBlock就是一个子查询。

QueryBlock的生成过程为一个递归过程,先序遍历 AST Tree ,遇到不同的 Token 节点(理解为特殊标记),保存到相应的属性中。

阶段三:生成逻辑执行计划

遍历QueryBlock,翻译为执行操作树OperatorTree:

Hive最终生成的MapReduce任务,Map阶段和Reduce阶段均由OperatorTree组成。

基本的操作符包括:

  • TableScanOperator

  • SelectOperator

  • FilterOperator

  • JoinOperator

  • GroupByOperator

  • ReduceSinkOperator

  • Operator在Map Reduce阶段之间的数据传递都是一个流式的过程。每一个Operator对一行数据完成操作后之后将数据传递给childOperator计算。

    由于Join/GroupBy/OrderBy均需要在Reduce阶段完成,所以在生成相应操作的Operator之前都会先生成一个ReduceSinkOperator,将字段组合并序列化为Reduce Key/value, Partition Key。

    阶段四:优化逻辑执行计划

    Hive中的逻辑查询优化可以大致分为以下几类:

  • 投影修剪

  • 推导传递谓词

  • 谓词下推

  • 将Select-Select,Filter-Filter合并为单个操作

  • 多路 Join

  • 查询重写以适应某些列值的Join倾斜

  • 阶段五:生成物理执行计划

  • 生成物理执行计划即是将逻辑执行计划生成的OperatorTree转化为MapReduce Job的过程,主要分为下面几个阶段:

  • 对输出表生成MoveTask

  • 从OperatorTree的其中一个根节点向下深度优先遍历

  • ReduceSinkOperator标示Map/Reduce的界限,多个Job间的界限

  • 遍历其他根节点,遇过碰到JoinOperator合并MapReduceTask

  • 生成StatTask更新元数据

  • 剪断Map与Reduce间的Operator的关系

  • 阶段六:优化物理执行计划

    Hive中的物理优化可以大致分为以下几类:

  • 分区修剪(Partition Pruning)

  • 基于分区和桶的扫描修剪(Scan pruning)

  • 如果查询基于抽样,则扫描修剪

  • 在某些情况下,在 map 端应用 Group By

  • 在 mapper 上执行 Join

  • 优化 Union,使Union只在 map 端执行

  • 在多路 Join 中,根据用户提示决定最后流哪个表

  • 删除不必要的 ReduceSinkOperators

  • 对于带有Limit子句的查询,减少需要为该表扫描的文件数

  • 对于带有Limit子句的查询,通过限制 ReduceSinkOperator 生成的内容来限制来自 mapper 的输出

  • 减少用户提交的SQL查询所需的Tez作业数量

  • 如果是简单的提取查询,避免使用MapReduce作业

  • 对于带有聚合的简单获取查询,执行不带 MapReduce 任务的聚合

  • 重写 Group By 查询使用索引表代替原来的表

  • 当表扫描之上的谓词是相等谓词且谓词中的列具有索引时,使用索引扫描

  • 经过以上六个阶段,SQL 就被解析映射成了集群上的 MapReduce 任务。

    SQL编译成MapReduce具体原理

    在阶段五-生成物理执行计划,即遍历 OperatorTree,翻译为 MapReduce 任务,这个过程具体是怎么转化的呢

    我们接下来举几个常用 SQL 语句转化为 MapReduce 的具体步骤:

    Join的实现原理

    以下面这个SQL为例,讲解 join 的实现:

    select u.name, o.orderid from order o join user u on o.uid = u.uid;

    在map的输出value中为不同表的数据打上tag标记,在reduce阶段根据tag判断数据来源。MapReduce的过程如下:

    MapReduce CommonJoin的实现

    Group By的实现原理

    以下面这个SQL为例,讲解 group by 的实现:

    select rank, isonline, count(*) from city group by rank, isonline;

    将GroupBy的字段组合为map的输出key值,利用MapReduce的排序,在reduce阶段保存LastKey区分不同的key。MapReduce的过程如下:

    Distinct的实现原理

    以下面这个SQL为例,讲解 distinct 的实现:

    select dealid, count(distinct uid) num from order group by dealid;

    当只有一个distinct字段时,如果不考虑Map阶段的Hash GroupBy,只需要将GroupBy字段和Distinct字段组合为map输出key,利用mapreduce的排序,同时将GroupBy字段作为reduce的key,在reduce阶段保存LastKey即可完成去重:




    JOIN users b
    ON a.user_id IS NOT NULL
    AND a.user_id = b.user_id
    UNION ALL
    SELECT *
    FROM log a
    WHERE a.user_id IS NULL;

    第二种:因为null值参与shuffle时的hash结果是一样的,那么我们可以给null值随机赋值,这样它们的hash结果就不一样,就会进到不同的reduce中:

    SELECT *
    FROM log a
    LEFT JOIN users b ON CASE
    WHEN a.user_id IS NULL THEN concat(\'hive_\', rand())
    ELSE a.user_id
    END = b.user_id;
    1. 不同数据类型引发的数据倾斜

    对于两个表join,表a中需要join的字段key为int,表b中key字段既有string类型也有int类型。当按照key进行两个表的join操作时,默认的Hash操作会按int型的id来进行分配,这样所有的string类型都被分配成同一个id,结果就是所有的string类型的字段进入到一个reduce中,引发数据倾斜。

    解决方案:

    如果key字段既有string类型也有int类型,默认的hash就都会按int类型来分配,那我们直接把int类型都转为string就好了,这样key字段都为string,hash时就按照string类型分配了:

    SELECT *
    FROM users a
    LEFT JOIN logs b ON a.usr_id = CAST(b.user_id AS string);
    1. 不可拆分大文件引发的数据倾斜

    当集群的数据量增长到一定规模,有些数据需要归档或者转储,这时候往往会对数据进行压缩;当对文件使用GZIP压缩等不支持文件分割操作的压缩方式,在日后有作业涉及读取压缩后的文件时,该压缩文件只会被一个任务所读取。如果该压缩文件很大,则处理该文件的Map需要花费的时间会远多于读取普通文件的Map时间,该Map任务会成为作业运行的瓶颈。这种情况也就是Map读取文件的数据倾斜。

    解决方案:

    这种数据倾斜问题没有什么好的解决方案,只能将使用GZIP压缩等不支持文件分割的文件转为bzip和zip等支持文件分割的压缩方式。

    所以,我们在对文件进行压缩时,为避免因不可拆分大文件而引发数据读取的倾斜,在数据压缩的时候可以采用bzip2和Zip等支持文件分割的压缩算法。

    1. 数据膨胀引发的数据倾斜

    在多维聚合计算时,如果进行分组聚合的字段过多,如下:

    select a,b,c,count(1)from log group by a,b,c with rollup; Stage-1 is a root stage
    Stage-0 depends on stages: Stage-1

    STAGE PLANS:
    Stage: Stage-1
    Map Reduce
    Map Operator Tree:
    TableScan
    alias: test1
    Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
    Select Operator
    expressions: id (type: int)
    outputColumnNames: id
    Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
    Group By Operator
    aggregations: sum(id)
    mode: hash
    outputColumnNames: _col0
    Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
    Reduce Output Operator
    sort order:
    Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
    value expressions: _col0 (type: bigint)
    Reduce Operator Tree:
    Group By Operator
    aggregations: sum(VALUE._col0)
    mode: mergepartial
    outputColumnNames: _col0
    Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
    File Output Operator
    compressed: false
    Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
    table:
    input format: org.apache.hadoop.mapred.SequenceFileInputFormat
    output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
    serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

    Stage: Stage-0
    Fetch Operator
    limit: -1
    Processor Tree:
    ListSink

    看完以上内容有什么感受,是不是感觉都看不懂,不要着急,下面将会详细讲解每个参数,相信你学完下面的内容之后再看 explain 的查询结果将游刃有余。

    一个HIVE查询被转换为一个由一个或多个stage组成的序列(有向无环图DAG)。这些stage可以是MapReduce stage,也可以是负责元数据存储的stage,也可以是负责文件系统的操作(比如移动和重命名)的stage。

    我们将上述结果拆分看,先从最外层开始,包含两个大的部分:

    先看第一部分 stage dependencies ,包含两个 stage,Stage-1 是根stage,说明这是开始的stage,Stage-0 依赖 Stage-1,Stage-1执行完成后执行Stage-0。

  • stage dependencies:各个stage之间的依赖性

  • stage plan:各个stage的执行计划

  • 再看第二部分 stage plan,里面有一个 Map Reduce,一个MR的执行计划分为两个部分:

  • Map Operator Tree:MAP端的执行计划树

  • Reduce Operator Tree:Reduce端的执行计划树

  • 这两个执行计划树里面包含这条sql语句的 operator:

    1. TableScan:表扫描操作,map端第一个操作肯定是加载表,所以就是表扫描操作,常见的属性:

    2. alias:表名称

    3. Statistics:表统计信息,包含表中数据条数,数据大小等

    4. Select Operator:选取操作,常见的属性 :

    5. expressions:需要的字段名称及字段类型

    6. outputColumnNames:输出的列名称

    7. Statistics:表统计信息,包含表中数据条数,数据大小等

    8. Group By Operator:分组聚合操作,常见的属性:

    9. aggregations:显示聚合函数信息

    10. mode:聚合模式,值有 hash:随机聚合,就是hash partition;partial:局部聚合;final:最终聚合

    11. keys:分组的字段,如果没有分组,则没有此字段

    12. outputColumnNames:聚合之后输出列名

    13. Statistics:表统计信息,包含分组聚合之后的数据条数,数据大小等

    14. Reduce Output Operator:输出到reduce操作,常见属性:

    15. sort order:值为空 不排序;值为 + 正序排序,值为 - 倒序排序;值为 +- 排序的列为两列,第一列为正序,第二列为倒序

    16. Filter Operator:过滤操作,常见的属性:

    17. predicate:过滤条件,如sql语句中的where id>=1,则此处显示(id >= 1)

    18. Map Join Operator:join 操作,常见的属性:

    19. condition map:join方式 ,如Inner Join 0 to 1 Left Outer Join0 to 2

    20. keys: join 的条件字段

    21. outputColumnNames:join 完成之后输出的字段

    22. Statistics:join 完成之后生成的数据条数,大小等

    23. File Output Operator:文件输出操作,常见的属性

    24. compressed:是否压缩

    25. table:表的信息,包含输入输出文件格式化方式,序列化方式等

    26. Fetch Operator 客户端获取数据操作,常见的属性:

    27. limit,值为 -1 表示不限制条数,其他值为限制的条数

    2. explain 的使用场景

    本节介绍 explain 能够为我们在生产实践中带来哪些便利及解决我们哪些迷惑

    案例一:join 语句会过滤 null 的值吗?

    现在,我们在hive cli 输入以下查询计划语句

    select a.id,b.user_name from test1 a join test2 b on a.id=b.id;

    问:上面这条 join 语句会过滤 id 为 null 的值吗

    执行下面语句:

    explain select a.id,b.user_name from test1 a join test2 b on a.id=b.id;

    我们来看结果 (为了适应页面展示,仅截取了部分输出信息):

    TableScan
    alias: a
    Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
    Filter Operator
    predicate: id is not null (type: boolean)
    Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
    Select Operator
    expressions: id (type: int)
    outputColumnNames: _col0
    Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
    HashTable Sink Operator
    keys:
    0 _col0 (type: int)
    1 _col0 (type: int)
    ...

    从上述结果可以看到 predicate: id is not null 这样一行,说明 join 时会自动过滤掉关联字段为 null 值的情况,但 left join 或 full join 是不会自动过滤null值的,大家可以自行尝试下。

    案例二:group by 分组语句会进行排序吗?

    看下面这条sql

    select id,max(user_name) from test1 group by id;

    问:group by 分组语句会进行排序吗

    直接来看 explain 之后结果 (为了适应页面展示,仅截取了部分输出信息)

     TableScan
    alias: test1
    Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE
    Select Operator
    expressions: id (type: int), user_name (type: string)
    outputColumnNames: id, user_name
    Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE
    Group By Operator
    aggregations: max(user_name)
    keys: id (type: int)
    mode: hash
    outputColumnNames: _col0, _col1
    Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE
    Reduce Output Operator
    key expressions: _col0 (type: int)
    sort order: +
    Map-reduce partition columns: _col0 (type: int)
    Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE
    value expressions: _col1 (type: string)
    ...

    我们看 Group By Operator,里面有 keys: id (type: int) 说明按照 id 进行分组的,再往下看还有 sort order: + ,说明是按照 id 字段进行正序排序的。

    案例三:哪条sql执行效率高呢?

    观察两条sql语句

    SELECT
    a.id,
    b.user_name
    FROM
    test1 a
    JOIN test2 b ON a.id = b.id
    WHERE
    a.id > 2;
    SELECT
    a.id,
    b.user_name
    FROM
    (SELECT * FROM test1 WHERE id > 2) a
    JOIN test2 b ON a.id = b.id;

    这两条sql语句输出的结果是一样的,但是哪条sql执行效率高呢?

    有人说第一条sql执行效率高,因为第二条sql有子查询,子查询会影响性能;

    有人说第二条sql执行效率高,因为先过滤之后,在进行join时的条数减少了,所以执行效率就高了。

    到底哪条sql效率高呢,我们直接在sql语句前面加上 explain,看下执行计划不就知道了嘛!

    在第一条sql语句前加上 explain,得到如下结果

    hive (default)> explain select a.id,b.user_name from test1 a join test2 b on a.id=b.id where a.id >2;
    OK
    Explain
    STAGE DEPENDENCIES:
    Stage-4 is a root stage
    Stage-3 depends on stages: Stage-4
    Stage-0 depends on stages: Stage-3

    STAGE PLANS:
    Stage: Stage-4
    Map Reduce Local Work
    Alias -> Map Local Tables:
    $hdt$_0:a
    Fetch Operator
    limit: -1
    Alias -> Map Local Operator Tree:
    $hdt$_0:a
    TableScan
    alias: a
    Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
    Filter Operator
    predicate: (id > 2) (type: boolean)
    Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
    Select Operator
    expressions: id (type: int)
    outputColumnNames: _col0
    Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
    HashTable Sink Operator
    keys:
    0 _col0 (type: int)
    1 _col0 (type: int)

    Stage: Stage-3
    Map Reduce
    Map Operator Tree:
    TableScan
    alias: b
    Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
    Filter Operator
    predicate: (id > 2) (type: boolean)
    Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
    Select Operator
    expressions: id (type: int), user_name (type: string)
    outputColumnNames: _col0, _col1
    Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
    Map Join Operator
    condition map:
    Inner Join 0 to 1
    keys:
    0 _col0 (type: int)
    1 _col0 (type: int)
    outputColumnNames: _col0, _col2
    Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE
    Select Operator
    expressions: _col0 (type: int), _col2 (type: string)
    outputColumnNames: _col0, _col1
    Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE
    File Output Operator
    compressed: false
    Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE
    table:
    input format: org.apache.hadoop.mapred.SequenceFileInputFormat
    output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
    serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
    Local Work:
    Map Reduce Local Work

    Stage: Stage-0
    Fetch Operator
    limit: -1
    Processor Tree:
    ListSink

    在第二条sql语句前加上 explain,得到如下结果

    hive (default)> explain select a.id,b.user_name from(select * from  test1 where id>2 ) a join test2 b on a.id=b.id;
    OK
    Explain
    STAGE DEPENDENCIES:
    Stage-4 is a root stage
    Stage-3 depends on stages: Stage-4
    Stage-0 depends on stages: Stage-3

    STAGE PLANS:
    Stage: Stage-4
    Map Reduce Local Work
    Alias -> Map Local Tables:
    $hdt$_0:test1
    Fetch Operator
    limit: -1
    Alias -> Map Local Operator Tree:
    $hdt$_0:test1
    TableScan
    alias: test1
    Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
    Filter Operator
    predicate: (id > 2) (type: boolean)
    Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
    Select Operator
    expressions: id (type: int)
    outputColumnNames: _col0
    Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
    HashTable Sink Operator
    keys:
    0 _col0 (type: int)
    1 _col0 (type: int)

    Stage: Stage-3
    Map Reduce
    Map Operator Tree:
    TableScan
    alias: b
    Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE
    Filter Operator
    predicate: (id > 2) (type: boolean)
    Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
    Select Operator
    expressions: id (type: int), user_name (type: string)
    outputColumnNames: _col0, _col1
    Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE
    Map Join Operator
    condition map:
    Inner Join 0 to 1
    keys:
    0 _col0 (type: int)
    1 _col0 (type: int)
    outputColumnNames: _col0, _col2
    Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE
    Select Operator
    expressions: _col0 (type: int), _col2 (type: string)
    outputColumnNames: _col0, _col1
    Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE
    File Output Operator
    compressed: false
    Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE
    table:
    input format: org.apache.hadoop.mapred.SequenceFileInputFormat
    output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
    serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
    Local Work:
    Map Reduce Local Work

    Stage: Stage-0
    Fetch Operator
    limit: -1
    Processor Tree:
    ListSink

    大家有什么发现,除了表别名不一样,其他的执行计划完全一样,都是先进行 where 条件过滤,在进行 join 条件关联。说明 hive 底层会自动帮我们进行优化,所以这两条sql语句执行效率是一样的。

    以上仅列举了3个我们生产中既熟悉又有点迷糊的例子,explain 还有很多其他的用途,如查看stage的依赖情况、排查数据倾斜、hive 调优等,小伙伴们可以自行尝试。

    2. explain dependency的用法

    explain dependency用于描述一段SQL需要的数据来源,输出是一个json格式的数据,里面包含以下两个部分的内容:

  • input_partitions:描述一段SQL依赖的数据来源表分区,里面存储的是分区名的列表,如果整段SQL包含的所有表都是非分区表,则显示为空。

  • input_tables:描述一段SQL依赖的数据来源表,里面存储的是Hive表名的列表。

  • 使用explain dependency查看SQL查询非分区普通表,在 hive cli 中输入以下命令:

    explain dependency select s_age,count(1) num from student_orc;

    得到结果:

    "input_partitions":[],"input_tables":["tablename":"default@student_tb _orc","tabletype":"MANAGED_TABLE"]

    使用explain dependency查看SQL查询分区表,在 hive cli 中输入以下命令:

    explain dependency select s_age,count(1) num from student_orc_partition;

    得到结果:

    "input_partitions":["partitionName":"default@student_orc_partition@ part=0", 
    "partitionName":"default@student_orc_partition@part=1",
    "partitionName":"default@student_orc_partition@part=2",
    "partitionName":"default@student_orc_partition@part=3",
    "partitionName":"default@student_orc_partition@part=4",
    "partitionName":"default@student_orc_partition@part=5",
    "partitionName":"default@student_orc_partition@part=6",
    "partitionName":"default@student_orc_partition@part=7",
    "partitionName":"default@student_orc_partition@part=8",
    "partitionName":"default@student_orc_partition@part=9"],
    "input_tables":["tablename":"default@student_orc_partition", "tabletype":"MANAGED_TABLE"]

    explain dependency的使用场景有两个:

  • 场景一:快速排除。快速排除因为读取不到相应分区的数据而导致任务数据输出异常。例如,在一个以天分区的任务中,上游任务因为生产过程不可控因素出现异常或者空跑,导致下游任务引发异常。通过这种方式,可以快速查看SQL读取的分区是否出现异常。

  • 场景二:理清表的输入,帮助理解程序的运行,特别是有助于理解有多重子查询,多表连接的依赖输入。

  • 下面通过两个案例来看explain dependency的实际运用:

    案例一:识别看似等价的代码

    对于刚接触SQL的程序员,很容易将

    select * from a inner join b on a.no=b.no and a.f>1 and a.f<3;

    等价于

    select * from a inner join b on a.no=b.no where a.f>1 and a.f<3;

    我们可以通过案例来查看下它们的区别:

    代码1:

    select 
    a.s_no
    from student_orc_partition a
    inner join
    student_orc_partition_only b
    on a.s_no=b.s_no and a.part=b.part and a.part>=1 and a.part<=2;

    代码2:

    select 
    a.s_no
    from student_orc_partition a
    inner join
    student_orc_partition_only b
    on a.s_no=b.s_no and a.part=b.part
    where a.part>=1 and a.part<=2;

    我们看下上述两段代码explain dependency的输出结果:

    代码1的explain dependency结果:

    "input_partitions": 
    ["partitionName":"default@student_orc_partition@part=0",
    "partitionName":"default@student_orc_partition@part=1",
    "partitionName":"default@student_orc_partition@part=2",
    "partitionName":"default@student_orc_partition_only@part=1",
    "partitionName":"default@student_orc_partition_only@part=2"],
    "input_tables": ["tablename":"default@student_orc_partition","tabletype":"MANAGED_TABLE", "tablename":"default@student_orc_partition_only","tabletype":"MANAGED_TABLE"]

    代码2的explain dependency结果:

    "input_partitions": 
    ["partitionName":"default@student_orc_partition@part=1",
    "partitionName" : "default@student_orc_partition@part=2",
    "partitionName" :"default@student_orc_partition_only@part=1",
    "partitionName":"default@student_orc_partition_only@part=2"],
    "input_tables": ["tablename":"default@student_orc_partition","tabletype":"MANAGED_TABLE", "tablename":"default@student_orc_partition_only","tabletype":"MANAGED_TABLE"]

    通过上面的输出结果可以看到,其实上述的两个SQL并不等价,代码1在内连接(inner join)中的连接条件(on)中加入非等值的过滤条件后,并没有将内连接的左右两个表按照过滤条件进行过滤,内连接在执行时会多读取part=0的分区数据。而在代码2中,会过滤掉不符合条件的分区。

    案例二:识别SQL读取数据范围的差别

    代码1:

    explain dependency
    select
    a.s_no
    from student_orc_partition a
    left join
    student_orc_partition_only b
    on a.s_no=b.s_no and a.part=b.part and b.part>=1 and b.part<=2;

    代码2:

    explain dependency 
    select
    a.s_no
    from student_orc_partition a
    left join
    student_orc_partition_only b
    on a.s_no=b.s_no and a.part=b.part and a.part>=1 and a.part<=2;

    以上两个代码的数据读取范围是一样的吗?答案是不一样,我们通过explain dependency来看下:

    代码1的explain dependency结果:

    "input_partitions": 
    ["partitionName": "default@student_orc_partition@part=0",
    "partitionName":"default@student_orc_partition@part=1", …中间省略7个分区
    "partitionName":"default@student_orc_partition@part=9",
    "partitionName":"default@student_orc_partition_only@part=1",
    "partitionName":"default@student_orc_partition_only@part=2"],
    "input_tables": ["tablename":"default@student_orc_partition","tabletype":"MANAGED_TABLE", "tablename":"default@student_orc_partition_only","tabletype":"MANAGED_TABLE"]

    代码2的explain dependency结果:

    "input_partitions": 
    ["partitionName":"default@student_orc_partition@part=0",
    "partitionName":"default@student_orc_partition@part=1", …中间省略7个分区
    "partitionName":"default@student_orc_partition@part=9",
    "partitionName":"default@student_orc_partition_only@part=0",
    "partitionName":"default@student_orc_partition_only@part=1", …中间省略7个分区
    "partitionName":"default@student_orc_partition_only@part=9"],
    "input_tables": ["tablename":"default@student_orc_partition","tabletype":"MANAGED_TABLE", "tablename":"default@student_orc_partition_only","tabletype":"MANAGED_TABLE"]

    可以看到,对左外连接在连接条件中加入非等值过滤的条件,如果过滤条件是作用于右表(b表)有起到过滤的效果,则右表只要扫描两个分区即可,但是左表(a表)会进行全表扫描。如果过滤条件是针对左表,则完全没有起到过滤的作用,那么两个表将进行全表扫描。这时的情况就如同全外连接一样都需要对两个数据进行全表扫描。

    在使用过程中,容易认为代码片段2可以像代码片段1一样进行数据过滤,通过查看explain dependency的输出结果,可以知道不是如此。

    3. explain authorization 的用法

    通过explain authorization可以知道当前SQL访问的数据来源(INPUTS) 和数据输出(OUTPUTS),以及当前Hive的访问用户 (CURRENT_USER)和操作(OPERATION)。

    在 hive cli 中输入以下命令:

    explain authorization 
    select variance(s_score) from student_tb_orc;

    结果如下:

    INPUTS: 
    default@student_tb_orc
    OUTPUTS:
    hdfs://node01:8020/tmp/hive/hdfs/cbf182a5-8258-4157-9194- 90f1475a3ed5/-mr-10000
    CURRENT_USER:
    hdfs
    OPERATION:
    QUERY
    AUTHORIZATION_FAILURES:
    No privilege \'Select\' found for inputs database:default, table:student_ tb_orc, columnName:s_score

    从上面的信息可知:

    上面案例的数据来源是defalut数据库中的 student_tb_orc表;

    数据的输出路径是hdfs://node01:8020/tmp/hive/hdfs/cbf182a5-8258-4157-9194-90f1475a3ed5/-mr-10000;

    当前的操作用户是hdfs,操作是查询;

    观察上面的信息我们还会看到AUTHORIZATION_FAILURES信息,提示对当前的输入没有查询权限,但如果运行上面的SQL的话也能够正常运行。为什么会出现这种情况?Hive在默认不配置权限管理的情况下不进行权限验证,所有的用户在Hive里面都是超级管理员,即使不对特定的用户进行赋权,也能够正常查询。

    通过上面对explain的介绍,可以发现explain中有很多值得我们去研究的内容,读懂 explain 的执行计划有利于我们优化Hive SQL,同时也能提升我们对SQL的掌控力。



     Hive SQL底层执行原理 -


    本节结构采用宏观着眼,微观入手,从整体到细节的方式剖析 Hive SQL 底层原理。第一节先介绍 Hive 底层的整体执行流程,然后第二节介绍执行流程中的 SQL 编译成 MapReduce 的过程,第三节剖析 SQL 编译成 MapReduce 的具体实现原理。




     Hive 底层执行架构 -


    我们先来看下 Hive 的底层执行架构图, Hive 的主要组件与 Hadoop 交互的过程:

    在 Hive 这一侧,总共有五个组件:

  • UI:用户界面。可看作我们提交SQL语句的命令行界面。

  • DRIVER:驱动程序。接收查询的组件。该组件实现了会话句柄的概念。

  • COMPILER:编译器。负责将 SQL 转化为平台可执行的执行计划。对不同的查询块和查询表达式进行语义分析,并最终借助表和从 metastore 查找的分区元数据来生成执行计划.

  • METASTORE:元数据库。存储 Hive 中各种表和分区的所有结构信息。

  • EXECUTION ENGINE:执行引擎。负责提交 COMPILER 阶段编译好的执行计划到不同的平台上。

  • 上图的基本流程是:

    步骤1:UI 调用 DRIVER 的接口;

    步骤2:DRIVER 为查询创建会话句柄,并将查询发送到 COMPILER(编译器)生成执行计划;

    步骤3和4:编译器从元数据存储中获取本次查询所需要的元数据,该元数据用于对查询树中的表达式进行类型检查,以及基于查询谓词修建分区;

    步骤5:编译器生成的计划是分阶段的DAG,每个阶段要么是 map/reduce 作业,要么是一个元数据或者HDFS上的操作。将生成的计划发给 DRIVER。

    如果是 map/reduce 作业,该计划包括 map operator trees 和一个 reduce operator tree,执行引擎将会把这些作业发送给 MapReduce :

    步骤6、6.1、6.2和6.3:执行引擎将这些阶段提交给适当的组件。在每个 task(mapper/reducer) 中,从HDFS文件中读取与表或中间输出相关联的数据,并通过相关算子树传递这些数据。最终这些数据通过序列化器写入到一个临时HDFS文件中(如果不需要 reduce 阶段,则在 map 中操作)。临时文件用于向计划中后面的 map/reduce 阶段提供数据。

    步骤7、8和9:最终的临时文件将移动到表的位置,确保不读取脏数据(文件重命名在HDFS中是原子操作)。对于用户的查询,临时文件的内容由执行引擎直接从HDFS读取,然后通过Driver发送到UI。



     总结 -


    通过上面的内容我们发现,shuffle阶段堪称性能的杀手,为什么这么说,一方面shuffle阶段是最容易引起数据倾斜的;另一方面shuffle的过程中会产生大量的磁盘I/O、网络I/O 以及压缩、解压缩、序列化和反序列化等。这些操作都是严重影响性能的。

    所以围绕shuffle和数据倾斜有很多的调优点:

    Mapper 端的Buffer 设置为多大?Buffer 设置得大,可提升性能,减少磁盘I/O ,但 是对内存有要求,对GC 有压力;Buffer 设置得小,可能不占用那么多内存, 但是可能频繁的磁盘I/O 、频繁的网络I/O 。



    扩展学习公众号后台回复“资料”,即可领取clickhouse大数据pdf合集。

    <END>

    往期精选

    1.京东ClickHouse的实践之路

    2.Apache Doris和ClickHouse深度分析

    3.ClickHouse入门、调优、实战全解秘籍

    4.最快开源OLAP引擎!ClickHouse在头条的技术演进

    5.趣头条基于 Flink+ClickHouse 构建实时数据分析平台


    数据分析课程笔记 - 19 - HiveSQL 常用优化技巧

    参考技术A

    大家好呀,这节课学习 HiveSQL 的常用优化技巧。由于 Hive 主要用来处理非常大的数据,运行过程由于通常要经过 MapReduce 的过程,因此不像 MySQL 一样很快出结果。而使用不同方法写出来的 HiveSQL 语句执行效率也是不一样的,因此为了减少等待的时间,提高服务器的运行效率,我们需要在 HiveSQL 的语句上进行一些优化。

    本节课的主要内容

    引言
    1、技巧一:列裁剪和分区裁剪
    (1)列裁剪
    (2)分区裁剪
    2、技巧二:排序技巧——sort by代替order by
    3、技巧三:去重技巧——用group by来替换distinct
    4、技巧四:聚合技巧——grouping sets、cube、rollup
    (1)grouping sets
    (2)cube
    (3)rollup
    5、技巧五:换个思路解题
    6、技巧六:union all时可以开启并发执行
    7、技巧七:表连接优化
    8、技巧八:遵循严格模式

    Hive 作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job 或 I/O 过多、MapReduce 分配不合理等等。对 Hive 的调优既包含对HiveSQL 语句本身的优化,也包含 Hive 配置项和 MR 方面的调整。

    列裁剪就是在查询时只读取需要的列。当列很多或者数据量很大时,如果select 所有的列或者不指定分区,导致的全表扫描和全分区扫描效率都很低。Hive中与列裁剪优化相关的配置项是 hive.optimize.cp ,默认是 true 。

    分区裁剪就是在查询时只读需要的分区。Hive中与分区裁剪优化相关的则是 hive.optimize.pruner ,默认是 true 。

    HiveSQL中的 order by 与其他 SQL 语言中的功能一样,就是将结果按某个字段全局排序,这会导致所有map端数据都进入一个 reduce 中,在数据量大时可能会长时间计算不完。

    如果使用 sort by ,那么就会视情况启动多个 reducer 进行排序,并且保证每个 reducer 内局部有序。为了控制 map 端数据分配到 reduce 的 key,往往还要配合 distribute by 一同使用。如果不加 distribute by 的话,map 端数据就会随机分配给 reducer。

    这里需要解释一下, distribute by 和 sort by 结合使用是如何相较于 order by 提升运行效率的。

    假如我们要对一张很大的用户信息表按照年龄进行分组,优化前的写法是直接 order by age 。使用 distribute by 和 sort by 结合进行优化的时候, sort by 后面还是 age 这个排序字段, distribute by 后面选择一个没有重复值的均匀字段,比如 user_id 。

    这样做的原因是,通常用户的年龄分布是不均匀的,比如20岁以下和50岁以上的人非常少,中间几个年龄段的人又非常多,在 Map 阶段就会造成有些任务很大,有些任务很小。那通过 distribute by 一个均匀字段,就可以让系统均匀地进行“分桶”,对每个桶进行排序,最后再组合,这样就能从整体上提升 MapReduce 的效率。

    取出 user_trade 表中全部支付用户:

    原有写法的执行时长:

    优化写法的执行时长:

    考虑对之前的案例进行优化:

    注意: 在极大的数据量(且很多重复值)时,可以先 group by 去重,再 count() 计数,效率高于直接 count(distinct **) 。

    如果我们想知道用户的性别分布、城市分布、等级分布,你会怎么写?

    通常写法:

    缺点 :要分别写三次SQL,需要执行三次,重复工作,且费时。

    那该怎么优化呢?

    注意 :这个聚合结果相当于纵向地堆在一起了(Union all),分类字段用不同列来进行区分,也就是每一行数据都包含 4 列,前三列是分类字段,最后一列是聚合计算的结果。

    GROUPING SETS() :在 group by 查询中,根据不同的维度组合进行聚合,等价于将不同维度的 group by 结果集进行 union all。聚合规则在括号中进行指定。

    如果我们想知道用户的性别分布以及每个性别的城市分布,你会怎么写?

    那该怎么优化呢?

    注意: 第二列为NULL的,就是性别的用户分布,其余有城市的均为每个性别的城市分布。

    cube:根据 group by 维度的所有组合进行聚合

    注意 :跑完数据后,整理很关键!!!

    rollup:以最左侧的维度为主,进行层级聚合,是cube的子集。

    如果我想同时计算出,每个月的支付金额,以及每年的总支付金额,该怎么办?

    那应该如何优化呢?

    条条大路通罗马,写SQL亦是如此,能达到同样效果的SQL有很多种,要学会思路转换,灵活应用。

    来看一个我们之前做过的案例:

    有没有别的写法呢?

    Hive 中互相没有依赖关系的 job 间是可以并行执行的,最典型的就是
    多个子查询union all。在集群资源相对充足的情况下,可以开启并
    行执行。参数设置: set hive.exec.parallel=true;

    时间对比:

    所谓严格模式,就是强制不允许用户执行3种有风险的 HiveSQL 语句,一旦执行会直接报错。

    要开启严格模式,需要将参数 hive.mapred.mode 设为 strict 。

    好啦,这节课的内容就是这些。以上优化技巧需要大家在平时的练习和使用中有意识地去注意自己的语句,不断改进,就能掌握最优的写法。

    以上是关于HiveSQL技术原理优化与面试的主要内容,如果未能解决你的问题,请参考以下文章

    数据分析课程笔记 - 19 - HiveSQL 常用优化技巧

    iOS开发,重点iOS技术点+面试题整理

    oracleSQL 转 SPARKSQL(hiveSql) 及常用优化

    oracleSQL 转 SPARKSQL(hiveSql) 及常用优化

    大数据之Hive:Hive调优全方位指南

    ios面试技术要点