Spark窗口(开窗)函数--博客园

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark窗口(开窗)函数--博客园相关的知识,希望对你有一定的参考价值。

   DT大数据梦工厂由王家林老师及其团队打造,旨在为社会培养100万优秀大数据人才,Spark已是目前大数据行业主流数据处理框架和未来趋势。

关注DT大数据梦工厂公众号:

DT_Spark

查看免费公开课,内容绝对详细。
YY永久免费直播频道:68917580

王家林老师联系方式:技术分享

   本篇文章摘抄自CSDN   深入浅出谈开窗函数(一) 作者:黎明前的黑暗

   在开窗函数出现之前存在着很多用 SQL 语句很难解决的问题,很多都要通过复杂的相关子查询或者存储过程来完成。为了解决这些问题,在2003年ISO  SQL标准加入了开窗函数,开窗函数的使用使得这些经典的难题可以被轻松的解决。目前在 MSSQLServer、Oracle、DB2 等主流数据库中都提供了对开窗函数的支持,不过非常遗憾的是 MYSQL 暂时还未对开窗函数给予支持。 

为了更加清楚地理解,我们来建表并进行相关的查询(截图为MSSQLServer中的结果)

        mysql,MSSQLServer,DB2: 
        

[sql] view plain copy
 
  1. CREATE TABLE T_Person   
  2. (  
  3.     FName VARCHAR(20),  
  4.     FCity VARCHAR(20),   
  5.     FAge INT,  
  6.     FSalary INT  
  7. )   



        Oracle: 
        CREATE TABLE T_Person (FName VARCHAR2(20),FCity VARCHAR2(20), FAge INT,FSalary INT) 

 

注:以下结果只在MSSQLServer中演示:

T_Person 表保存了人员信息,FName 字段为人员姓名,FCity 字段为人员所在的城市名,

FAge  字段为人员年龄,FSalary 字段为人员工资。然后执行下面的SQL语句向 T_Person

表中插入一些演示数据: 

       

[sql] view plain copy
 
  1. INSERT INTO T_Person(FName,FCity,FAge,FSalary)   
  2. VALUES(‘Tom‘,‘BeiJing‘,20,3000);   
  3. INSERT INTO T_Person(FName,FCity,FAge,FSalary)   
  4. VALUES(‘Tim‘,‘ChengDu‘,21,4000);   
  5. INSERT INTO T_Person(FName,FCity,FAge,FSalary)   
  6. VALUES(‘Jim‘,‘BeiJing‘,22,3500);   
  7. INSERT INTO T_Person(FName,FCity,FAge,FSalary)   
  8. VALUES(‘Lily‘,‘London‘,21,2000);   
  9. INSERT INTO T_Person(FName,FCity,FAge,FSalary)   
  10. VALUES(‘John‘,‘NewYork‘,22,1000);   
  11. INSERT INTO T_Person(FName,FCity,FAge,FSalary)   
  12. VALUES(‘YaoMing‘,‘BeiJing‘,20,3000);   
  13. INSERT INTO T_Person(FName,FCity,FAge,FSalary)   
  14. VALUES(‘Swing‘,‘London‘,22,2000);   
  15. INSERT INTO T_Person(FName,FCity,FAge,FSalary)   
  16. VALUES(‘Guo‘,‘NewYork‘,20,2800);   
  17. INSERT INTO T_Person(FName,FCity,FAge,FSalary)   
  18. VALUES(‘YuQian‘,‘BeiJing‘,24,8000);   
  19. INSERT INTO T_Person(FName,FCity,FAge,FSalary)   
  20. VALUES(‘Ketty‘,‘London‘,25,8500);   
  21. INSERT INTO T_Person(FName,FCity,FAge,FSalary)   
  22. VALUES(‘Kitty‘,‘ChengDu‘,25,3000);   
  23. INSERT INTO T_Person(FName,FCity,FAge,FSalary)   
  24. VALUES(‘Merry‘,‘BeiJing‘,23,3500);   
  25. INSERT INTO T_Person(FName,FCity,FAge,FSalary)   
  26. VALUES(‘Smith‘,‘ChengDu‘,30,3000);   
  27. INSERT INTO T_Person(FName,FCity,FAge,FSalary)  
  28. VALUES(‘Bill‘,‘BeiJing‘,25,2000);   
  29. INSERT INTO T_Person(FName,FCity,FAge,FSalary)   
  30. VALUES(‘Jerry‘,‘NewYork‘,24,3300);   

 

 

查看表中的内容:

select * from T_Person

技术分享

开窗函数简介 
  与 聚 合函数一样,开窗函数也是对行集组进行聚合计算,但是它不像普通聚合函数那样

每组只返回一个值,开窗函数可以为每组返回多个值,因为开窗函数所执行聚合计算的行

集组是窗口。在ISO SQL规定了这样的函数为开窗函数,在 Oracle中则被称为分析函数,

而在DB2中则被称为OLAP函数。  

要计算所有人员的总数,我们可以执行下面的 SQL语句: 
SELECT COUNT(*) FROM T_Person 
         除了这种较简单的使用方式, 有时需要从不在聚合函数中的行中访问这些聚合计

算的值。比如我们想查询每个工资小于 5000元的员工信息(城市以及年龄) ,并且在

每行中都显示所有工资小于5000元的员工个数,尝试编写下面的 SQL语句: 
SELECT FCITY , FAGE , COUNT(*)  
FROM T_Person 
HERE FSALARY<5000 
  执行上面的SQL以后我们会得到下面的错误信息: 
选择列表中的列  ‘T_Person.FCity‘ 无效,因为该列没有包含在聚合函数或 

 GROUP BY 子句中。 
  这是因为所有不包含在聚合函数中的列必须声明在GROUP BY 子句中,

可以进行如下修改: 
SELECT FCITY, FAGE, COUNT(*)  
FROM T_Person 
WHERE FSALARY<5000 
GROUP BY FCITY , FAGE 
  执行完毕我们就能在输出结果中看到下面的执行结果:                

 

   技术分享

  这个执行结果与我们想像的是完全不同的,这是因为GROUP  BY子句对结果集

进行了分组,所以聚合函数进行计算的对象不再是所有的结果集,而是每一个分组。

 可以通过子查询来解决这个问题,SQL如下: 
SELECT FCITY , FAGE ,  

  SELECT COUNT(* ) FROM T_Person 
  WHERE FSALARY<5000 

FROM T_Person 
WHERE FSALARY<5000 
  执行完毕我们就能在输出结果中看到下面的执行结果:

技术分享

  虽然使用子查询能够解决这个问题,但是子查询的使用非常麻烦,使用开窗函数

则可以大大简化实现,下面的SQL语句展示了如果使用开窗函数来实现同样的效果: 

SELECT FCITY , FAGE , COUNT(*) OVER() 
FROM T_Person 
WHERE FSALARY<5000 
  执行完毕我们就能在输出结果中看到下面的执行结果: 

技术分享

可以看到与聚合函数不同的是,开窗函数在聚合函数后增加了一个OVER 关键字。 
开窗函数的调用格式为: 
函数名(列) OVER(选项) 
    OVER   关键字表示把函数当成开窗函数而不是聚合函数。SQL  标准允许将所有聚 
合函数用做开窗函数,使用OVER 关键字来区分这两种用法。 
    在上边的例子中,开窗函数COUNT(*) OVER()对于查询结果的每一行都返回所有 
符合条件的行的条数。OVER关键字后的括号中还经常添加选项用以改变进行聚合运算的窗 
口范围。如果OVER关键字后的括号中的选项为空,则开窗函数会对结果集中的所有行进行 

以上是关于Spark窗口(开窗)函数--博客园的主要内容,如果未能解决你的问题,请参考以下文章

SQL Server中的开窗函数是啥?

开窗函数

Spark篇---SparkSQL中自定义UDF和UDAF,开窗函数的应用

Hive之窗口函数

开窗函数是啥?

Hive开窗函数总结