大数据之Hive:Hive 开窗函数

Posted 浊酒南街

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据之Hive:Hive 开窗函数相关的知识,希望对你有一定的参考价值。

前言

书接上回,上回重点讲了聚合函数之count开窗函数,first_value开窗函数;
言归正传,这次我们重点讲解lag开窗函数和cume_dist开窗函数;

1.last_value开窗函数

语义:返回分区中最后一个值(某一列属性的最后一个值)
同first-value开窗函数;

2.lag开窗函数

在这里插入图片描述
语义:lag(col,n,default) 用于统计窗口内往上第n个值。
col:列名
n:往上第n行
default:往上第n行为NULL时候,取默认值,不指定则取NULL

-- lag 开窗函数

select studentId,math,departmentId,classId,
 --窗口内 往上取第二个 取不到时赋默认值60
lag(math,2,60) over(partition by classId order by math) as lag1,
 --窗口内 往上取第二个 取不到时赋默认值NULL
lag(math,2) over(partition by classId order by math) as lag2
from student_scores where departmentId='department1';

结果
studentid   math    departmentid    classid lag1    lag2
111         69      department1     class1  60      NULL
113         74      department1     class1  60      NULL
112         80      department1     class1  69      69
115         93      department1     class1  74      74
114         94      department1     class1  80      80
124         70      department1     class2  60      NULL
121         74      department1     class2  60      NULL
123         78      department1     class2  70      70
122         86      department1     class2  74      74

结果解释:
    第3行 lag1:窗口内(69 74 80) 当前行80 向上取第二个值为69
    倒数第3行 lag2:窗口内(70 74) 当前行74 向上取第二个值为NULL

3.lead开窗函数

在这里插入图片描述

语义:lead(col,n,default) 用于统计窗口内往下第n个值。
col:列名
n:往下第n行
default:往下第n行为NULL时候,取默认值,不指定则取NULL
同lag开窗函数

4.cume_dist开窗函数

在这里插入图片描述
语义:计算某个窗口或分区中某个值的累积分布。假定升序排序,则使用以下公式确定累积分布:
小于等于当前值x的行数 / 窗口或partition分区内的总行数。其中,x 等于 order by 子句中指定的列的当前行中的值。
应用场景:统计小于等于当前分数的人数占总人数的比例

-- cume_dist 开窗函数

select studentId,math,departmentId,classId,
-- 统计小于等于当前分数的人数占总人数的比例
round(cume_dist() over(order by math),2) cume_dist1
-- 统计大于等于当前分数的人数占总人数的比例
round(cume_dist() over(order by math desc),2) cume_dist2,
-- 统计分区内小于等于当前分数的人数占总人数的比例
round(cume_dist() over(partition by classId order by math),2)  cume_dist3
from student_scores where departmentId='department1';

结果
studentid   math    departmentid    classid cume_dist1              cume_dist2          cume_dist3
111         69      department1     class1  0.11     				1.0 					 0.2
113         74      department1     class1  0.44					0.78 			 		 0.4
112         80      department1     class1  0.67     				0.44  					 0.6
115         93      department1     class1  0.89     				0.22					 0.8
114         94      department1     class1  1.0      				0.11					 1.0
124         70      department1     class2  0.22     				0.89  	 				 0.25
121         74      department1     class2  0.44     				0.78					 0.5
123         78      department1     class2  0.56     				0.56					 0.75
122         86      department1     class2  0.78     				0.33					 1.0

结果解释:
    第三行:
        cume_dist1=小于等于80的人数为6/总人数9=0.6666666666666666
        cume_dist2=大于等于80的人数为4/总人数9=0.4444444444444444
        cume_dist3=分区内小于等于80的人数为3/分区内总人数5=0.6

参考:https://blog.csdn.net/wangpei1949/article/details/81437574

以上是关于大数据之Hive:Hive 开窗函数的主要内容,如果未能解决你的问题,请参考以下文章

大数据之Hive:Hive 开窗函数

大数据之hive:开窗实战

大数据之-HIVE入门(二十)

大数据(3g)HIVE开窗函数应用场景(不定更)

Hive之窗口函数

大数据技术之Hive函数压缩和存储