Spark窗口(开窗)函数--博客园
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark窗口(开窗)函数--博客园相关的知识,希望对你有一定的参考价值。
DT大数据梦工厂由王家林老师及其团队打造,旨在为社会培养100万优秀大数据人才,Spark已是目前大数据行业主流数据处理框架和未来趋势。
关注DT大数据梦工厂公众号:
DT_Spark
查看免费公开课,内容绝对详细。
YY永久免费直播频道:68917580
王家林老师联系方式:
本篇文章摘抄自CSDN 深入浅出谈开窗函数(一) 作者:黎明前的黑暗
在开窗函数出现之前存在着很多用 SQL 语句很难解决的问题,很多都要通过复杂的相关子查询或者存储过程来完成。为了解决这些问题,在2003年ISO SQL标准加入了开窗函数,开窗函数的使用使得这些经典的难题可以被轻松的解决。目前在 MSSQLServer、Oracle、DB2 等主流数据库中都提供了对开窗函数的支持,不过非常遗憾的是 MYSQL 暂时还未对开窗函数给予支持。
为了更加清楚地理解,我们来建表并进行相关的查询(截图为MSSQLServer中的结果)
mysql,MSSQLServer,DB2:
- CREATE TABLE T_Person
- (
- FName VARCHAR(20),
- FCity VARCHAR(20),
- FAge INT,
- FSalary INT
- )
Oracle:
CREATE TABLE T_Person (FName VARCHAR2(20),FCity VARCHAR2(20), FAge INT,FSalary INT)
注:以下结果只在MSSQLServer中演示:
T_Person 表保存了人员信息,FName 字段为人员姓名,FCity 字段为人员所在的城市名,
FAge 字段为人员年龄,FSalary 字段为人员工资。然后执行下面的SQL语句向 T_Person
表中插入一些演示数据:
- INSERT INTO T_Person(FName,FCity,FAge,FSalary)
- VALUES(‘Tom‘,‘BeiJing‘,20,3000);
- INSERT INTO T_Person(FName,FCity,FAge,FSalary)
- VALUES(‘Tim‘,‘ChengDu‘,21,4000);
- INSERT INTO T_Person(FName,FCity,FAge,FSalary)
- VALUES(‘Jim‘,‘BeiJing‘,22,3500);
- INSERT INTO T_Person(FName,FCity,FAge,FSalary)
- VALUES(‘Lily‘,‘London‘,21,2000);
- INSERT INTO T_Person(FName,FCity,FAge,FSalary)
- VALUES(‘John‘,‘NewYork‘,22,1000);
- INSERT INTO T_Person(FName,FCity,FAge,FSalary)
- VALUES(‘YaoMing‘,‘BeiJing‘,20,3000);
- INSERT INTO T_Person(FName,FCity,FAge,FSalary)
- VALUES(‘Swing‘,‘London‘,22,2000);
- INSERT INTO T_Person(FName,FCity,FAge,FSalary)
- VALUES(‘Guo‘,‘NewYork‘,20,2800);
- INSERT INTO T_Person(FName,FCity,FAge,FSalary)
- VALUES(‘YuQian‘,‘BeiJing‘,24,8000);
- INSERT INTO T_Person(FName,FCity,FAge,FSalary)
- VALUES(‘Ketty‘,‘London‘,25,8500);
- INSERT INTO T_Person(FName,FCity,FAge,FSalary)
- VALUES(‘Kitty‘,‘ChengDu‘,25,3000);
- INSERT INTO T_Person(FName,FCity,FAge,FSalary)
- VALUES(‘Merry‘,‘BeiJing‘,23,3500);
- INSERT INTO T_Person(FName,FCity,FAge,FSalary)
- VALUES(‘Smith‘,‘ChengDu‘,30,3000);
- INSERT INTO T_Person(FName,FCity,FAge,FSalary)
- VALUES(‘Bill‘,‘BeiJing‘,25,2000);
- INSERT INTO T_Person(FName,FCity,FAge,FSalary)
- VALUES(‘Jerry‘,‘NewYork‘,24,3300);
查看表中的内容:
select * from T_Person
开窗函数简介
与 聚 合函数一样,开窗函数也是对行集组进行聚合计算,但是它不像普通聚合函数那样
每组只返回一个值,开窗函数可以为每组返回多个值,因为开窗函数所执行聚合计算的行
集组是窗口。在ISO SQL规定了这样的函数为开窗函数,在 Oracle中则被称为分析函数,
而在DB2中则被称为OLAP函数。
要计算所有人员的总数,我们可以执行下面的 SQL语句:
SELECT COUNT(*) FROM T_Person
除了这种较简单的使用方式, 有时需要从不在聚合函数中的行中访问这些聚合计
算的值。比如我们想查询每个工资小于 5000元的员工信息(城市以及年龄) ,并且在
每行中都显示所有工资小于5000元的员工个数,尝试编写下面的 SQL语句:
SELECT FCITY , FAGE , COUNT(*)
FROM T_Person
HERE FSALARY<5000
执行上面的SQL以后我们会得到下面的错误信息:
选择列表中的列 ‘T_Person.FCity‘ 无效,因为该列没有包含在聚合函数或
GROUP BY 子句中。
这是因为所有不包含在聚合函数中的列必须声明在GROUP BY 子句中,
可以进行如下修改:
SELECT FCITY, FAGE, COUNT(*)
FROM T_Person
WHERE FSALARY<5000
GROUP BY FCITY , FAGE
执行完毕我们就能在输出结果中看到下面的执行结果:
这个执行结果与我们想像的是完全不同的,这是因为GROUP BY子句对结果集
进行了分组,所以聚合函数进行计算的对象不再是所有的结果集,而是每一个分组。
可以通过子查询来解决这个问题,SQL如下:
SELECT FCITY , FAGE ,
(
SELECT COUNT(* ) FROM T_Person
WHERE FSALARY<5000
)
FROM T_Person
WHERE FSALARY<5000
执行完毕我们就能在输出结果中看到下面的执行结果:
虽然使用子查询能够解决这个问题,但是子查询的使用非常麻烦,使用开窗函数
则可以大大简化实现,下面的SQL语句展示了如果使用开窗函数来实现同样的效果:
SELECT FCITY , FAGE , COUNT(*) OVER()
FROM T_Person
WHERE FSALARY<5000
执行完毕我们就能在输出结果中看到下面的执行结果:
可以看到与聚合函数不同的是,开窗函数在聚合函数后增加了一个OVER 关键字。
开窗函数的调用格式为:
函数名(列) OVER(选项)
OVER 关键字表示把函数当成开窗函数而不是聚合函数。SQL 标准允许将所有聚
合函数用做开窗函数,使用OVER 关键字来区分这两种用法。
在上边的例子中,开窗函数COUNT(*) OVER()对于查询结果的每一行都返回所有
符合条件的行的条数。OVER关键字后的括号中还经常添加选项用以改变进行聚合运算的窗
口范围。如果OVER关键字后的括号中的选项为空,则开窗函数会对结果集中的所有行进行
以上是关于Spark窗口(开窗)函数--博客园的主要内容,如果未能解决你的问题,请参考以下文章