窗口函数/解析函数
Posted daoren
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了窗口函数/解析函数相关的知识,希望对你有一定的参考价值。
分析函数是以一定的方法在一个与当前行相关的结果子集中进行计算,也称为窗口函数。
Function(arg1 , arg2 ……) over(partition by clause order by clause windowing clause )
1.over分区条件中的列可以不在select列表中,但是必须在数据源中。
2.over排序条件中的列可以不在select列表中,但是必须在数据源中。
3.over排序条件是对所在分区中的数据进行排序,与select语句中的排序无关。但是会影响到分析函数的结果。
4.over中的开窗条件的范围一般仅限于分区本身。rows between unbounded preceding and current row表示从分区的最开始到当前行。
5.分析函数的数据来自结果集(施加了where条件之后的)。
Lead和Lag(不支持开窗的函数)
LEAD是求下一个,LAG求上一个
Lead和lag函数的第一参数为返回的列,第二参数为相隔行数(非负),第三个参数为不存在时的默认值(可以指定为当前行的值)
FIRST_VALUE和LAST_VALUE
这两个函数都可以与order by条件配合得到最大值和最小值。
First_value返回窗口中的第一个值。Ignore nulls表示忽略空值,如果第一个是空值返回第二个。
NTH_VALUE访问分区别的任意指定行
FIRST_VALUE相当于NTH_VALUE(sale , 1 )或者NTH_VALUE(sale , 1 )from first respect nulls。
可以与排序配合求第几大,第几小。
Ratio_to_report(当前行的值与分区总和的比值)
这个函数不支持排序和开窗。
Percent_rank(排在前百分之几)
当前行的排名的相对百分位置。
Percentile_cont(大体意思求排在某个百分比时所需的数值)
Percentile_disc(功能与Percentile_cont大体相同)
NTILE(类型于建立直方图,不支持开窗)
Stddev计算标准差(方差的平方根,支持开窗)
Listagg(把分区中的列按照顺序拼接起来,不支持开窗)
高级排序函数:
[ ROW_NUMBER()| RANK() | DENSE_RANK ] OVER (partition by xx order by xx)
1.row_number() 连续且递增的数字 1 2 3 4
row_number() over (partition by xx order by xx )
--学生表中按照所在专业分组,同专业内按成绩倒序排序,成绩相同则按学号正序排序,并给予组内等级
select row_number() over(partition by class_id order by score desc)rn,t.* from student2016 t
2.rank() 跳跃排序 若有相同数据则排名相同 然后跳跃排序 1 2 2 2 5
rank() over (partition by xx order by xx )
select rank() over(partition by class_id order by score desc)rn,t.* from student2016 t
3.dense_rank 若有相同数据则排名相同 然后递增排序
dense_rank over (partition by xx order by xx ) 1 2 2 2 3
select dense_rank() over(partition by class_id order by score desc)rn,t.* from student2016 t
高级分组函数
group by rollup(a,b,c)
select a,b,c,sum(d) from test group by rollup(a,b,c)
对rollup后面的列 按从右到左以少一列的方式进行分组直到所有列都去掉后的分组(也就是全表分组)
对于n个参数的 rollup,有n+1次分组即按a,b,c,分组,union all a,b分组 union all a分组 union from test
----------------------------------------------------------------------------------
group by cube(a,b,c)
对n个参数,有2^n次分组
即按 ab,ac,a,bc,b,c最后对 全部分组
----------------------------------------------------------------------------------
group by grouping sets(a,b)
即只列出 对 a分组后,和对 b分组的结果集
以上是关于窗口函数/解析函数的主要内容,如果未能解决你的问题,请参考以下文章
Spark with HiveContext - AnalysisException:无法解析窗口函数“first_value”