Hive窗口函数row_number案例

Posted 中琦2513

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hive窗口函数row_number案例相关的知识,希望对你有一定的参考价值。

数据文件是:rownumbertest.txt

字段信息是:id,sex,age,name

1,男,18,张三
2,女,18,李四
3,女,20,王五
4,男,18,赵六
5,男,18,刘七
6,男,19,石九
7,男,38,黄渤
8,女,22,刘嘉玲
9,女,23,王菲
10,女,28,刘亦菲
11,女,18,赵丽颖

用户信息表

create database if not exists hive_test;

use hive_test;

drop table if exists rownumbertest;

create table rownumbertest(id int, sex string, age int, name string) row format delimited fields terminated by ",";

load data local inpath "/home/hadoop/rownumbertest.txt" into table rownumbertest;

select * from rownumbertest;

数据结果展示:

id   sex  age  name    rank
1    男   18   张三     3
2    女   18   李四     5
3    女   20   王五     4
4    男   18   赵六     3
5    男   18   刘七     3
6    男   19   石九     2
7    男   38   黄渤     1
8    女   22   刘嘉玲   3
9    女   23   王菲     2
10   女   28   刘亦菲   1
11   女   18   赵丽颖   5

需求:每种性别人群中,年龄最大的两个人,TopN的需求:分组取前几

核心思路:

如果能实现一个操作:
把每一条记录再对应的组中的编号如果能生成出来的话。那么下面的这个SQL能很容易的求出结果
select * from rownumbertest where rank <= 2;

distribute by 和 sort by 搭配使用

select a.id, a.sex, a.age, a.name, row_number() over(distribute by a.sex sort by
a.age desc) as rank from rownumbertest a;

partition by 和 order by 搭配使用

select id, sex, age, name, row_number() over (partition by sex order by age desc) as
index from rownumbertest;

结果:

+-----+-----+------+-------+--------+
| id | xb | age | name | index |
+-----+-----+------+-------+--------+
| 10 | 女  | 28  | 刘亦菲  | 1   |
| 9  | 女  | 23  | 王菲    | 2   |
| 8  | 女  | 22  | 刘嘉玲  | 3   |
| 3  | 女  | 20  | 王五    | 4   |
| 11 | 女  | 18  | 赵丽颖  | 5   |
| 2  | 女  | 18  | 李四    | 6   |
| 7  | 男  | 38  | 黄渤    | 1   |
| 6  | 男  | 19  | 石九    | 2   |
| 5  | 男  | 18  | 刘七    | 3   |
| 4  | 男  | 18  | 赵六    | 4   |
| 1  | 男  | 18  | 张三    | 5   |
+-----+-----+------+-------+--------+

SQL语句:

select * from (select id, sex, age, name, row_number() over (partition by sex order
by age desc) as index from rownumbertest) abc where abc.index <= 3;

结果:

+---------+---------+----------+-----------+------------+
| abc.id | abc.xb | abc.age | abc.name | abc.index |
+---------+---------+----------+-----------+------------+
| 10   | 女    | 28    | 刘亦菲    | 1     |
| 9    | 女    | 23    | 王菲      | 2     |
| 8    | 女    | 22    | 刘嘉玲    | 3     |
| 7    | 男    | 38    | 黄渤      | 1     |
| 6    | 男    | 19    | 石九      | 2     |
| 5    | 男    | 18    | 刘七      | 3     |
+---------+---------+----------+-----------+------------+

 

 

以上是关于Hive窗口函数row_number案例的主要内容,如果未能解决你的问题,请参考以下文章

hive row_number等窗口分析函数

Hive row_number() 中的自定义排序,按窗口函数排序

举一反三-Pandas实现Hive中的窗口函数

Hive--09---函数----窗口函数

hive的row_number()rank()和dense_rank()的区别以及具体使用

MySql窗口函数