017-Hadoop Hive sql语法详解7-去重排序数据倾斜
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了017-Hadoop Hive sql语法详解7-去重排序数据倾斜相关的知识,希望对你有一定的参考价值。
一、数据去重排序
1.1、去重
distinct与group by
尽量避免使用distinct进行排重,特别是大表操作,用group by代替
-- 不建议 select DISTINCT key from a -- 建议 select key from a group by key
1.2、排序优化
只有order by产生的结果是全局有序的,可以根据实际场景进行选择排序。
1、order by 实现全局排序,一个reduce实现,由于不能并发执行,所以效率偏低
2、sort by实现部分有序,单个reduce输出的结果是有序的,效率高,通常和distribute by关键字一起使用
(distribute by 关键字可以指定map到reduce端的分发key)
3、cluster by col1等价于 distribute by col1 sort by col1但不能指定排序规则
二、数据倾斜
任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。
单一reduce的记录数与平均记录数差异过大,通常可能达到30倍甚至更多。最长时长远大于平均时长。
以上是关于017-Hadoop Hive sql语法详解7-去重排序数据倾斜的主要内容,如果未能解决你的问题,请参考以下文章
009-Hadoop Hive sql语法详解4-DQL 操作:数据查询SQL
007-Hadoop Hive sql语法详解2-修改表结构