hive如何按某一字段分组取最大值所在行的数据

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hive如何按某一字段分组取最大值所在行的数据相关的知识,希望对你有一定的参考价值。

参考技术A :有目录就有签到,你可以到后台提交贴吧目录,每周提交2次,至于速度这个不保证,你也可以后台提交目录后,再到贴吧分类吧申请目录。等你的贴吧有目录后,第二天就会有签到了注意:申请目录必须是那吧的吧主才行。

SQL分组取每组前一(或几)条记录(排名)

mysql分组取每组前几条记录(排名) 附group by与order by的研究

http://www.jb51.net/article/31590.htm

 

--按某一字段分组取最大(小)值所在行的数据

代码如下:
技术分享
/* 
数据如下: 
name val memo 
a 2 a2(a的第二个值) 
a 1 a1--a的第一个值 
a 3 a3:a的第三个值 
b 1 b1--b的第一个值 
b 3 b3:b的第三个值 
b 2 b2b2b2b2 
b 4 b4b4 
b 5 b5b5b5b5b5 
*/ 
技术分享


--创建表并插入数据:

代码如下:
技术分享
create table tb(name varchar(10),val int,memo varchar(20)) 
insert into tb values(‘a‘, 2, ‘a2(a的第二个值)‘) 
insert into tb values(‘a‘, 1, ‘a1--a的第一个值‘) 
insert into tb values(‘a‘, 3, ‘a3:a的第三个值‘) 
insert into tb values(‘b‘, 1, ‘b1--b的第一个值‘) 
insert into tb values(‘b‘, 3, ‘b3:b的第三个值‘) 
insert into tb values(‘b‘, 2, ‘b2b2b2b2‘) 
insert into tb values(‘b‘, 4, ‘b4b4‘) 
insert into tb values(‘b‘, 5, ‘b5b5b5b5b5‘) 
go 
技术分享

--一、按name分组取val最大的值所在行的数据。

代码如下:
技术分享
--方法1:select a.* from tb a where val = (select max(val) from tb where name = a.name) order by a.name 
--方法2: 
select a.* from tb a where not exists(select 1 from tb where name = a.name and val > a.val) 
--方法3: 
select a.* from tb a,(select name,max(val) val from tb group by name) b where a.name = b.name and a.val = b.val order by a.name 
--方法4: 
select a.* from tb a inner join (select name , max(val) val from tb group by name) b on a.name = b.name and a.val = b.val order by a.name 
--方法5 
select a.* from tb a where 1 > (select count(*) from tb where name = a.name and val > a.val ) order by a.name 
/* 
name val memo 
---------- ----------- -------------------- 
a 3 a3:a的第三个值 
b 5 b5b5b5b5b5 

*/ 
技术分享

本人推荐使用1,3,4,结果显示1,3,4效率相同,2,5效率差些,不过我3,4效率相同毫无疑问,1就不一样了,想不搞了。


--二、按name分组取val最小的值所在行的数据。

 代码如下:
技术分享
--方法1:select a.* from tb a where val = (select min(val) from tb where name = a.name) order by a.name 
--方法2: 
select a.* from tb a where not exists(select 1 from tb where name = a.name and val < a.val) 
--方法3: 
select a.* from tb a,(select name,min(val) val from tb group by name) b where a.name = b.name and a.val = b.val order by a.name 
--方法4: 
select a.* from tb a inner join (select name , min(val) val from tb group by name) b on a.name = b.name and a.val = b.val order by a.name 
--方法5 
select a.* from tb a where 1 > (select count(*) from tb where name = a.name and val < a.val) order by a.name 
/* 
name val memo 
---------- ----------- -------------------- 
a 1 a1--a的第一个值 
b 1 b1--b的第一个值 
*/
技术分享

--三、按name分组取第一次出现的行所在的数据。

代码如下:
技术分享
select a.* from tb a where val = (select top 1 val from tb where name = a.name) order by a.name 
/* 
name val memo 
---------- ----------- -------------------- 
a 2 a2(a的第二个值) 
b 1 b1--b的第一个值 
*/ 
技术分享

 

--四、按name分组随机取一条数据。

代码如下:
技术分享
select a.* from tb a where val = (select top 1 val from tb where name = a.name order by newid()) order by a.name/* 
name val memo 
---------- ----------- -------------------- 
a 1 a1--a的第一个值 
b 5 b5b5b5b5b5 

*/ 
技术分享

 

--五、按name分组取最小的两个(N个)val

 代码如下:
技术分享
select a.* from tb a where 2 > (select count(*) from tb where name = a.name and val < a.val ) order by a.name,a.valselect a.* from tb a where val in (select top 2 val from tb where name=a.name order by val) order by a.name,a.val 
select a.* from tb a where exists (select count(*) from tb where name = a.name and val < a.val having Count(*) < 2) order by a.name 
/* 
name val memo 
---------- ----------- -------------------- 
a 1 a1--a的第一个值 
a 2 a2(a的第二个值) 
b 1 b1--b的第一个值 
b 2 b2b2b2b2 

*/ 
技术分享

 

--六、按name分组取最大的两个(N个)val

代码如下:
技术分享
select a.* from tb a where 2 > (select count(*) from tb where name = a.name and val > a.val ) order by a.name,a.val 
select a.* from tb a where val in (select top 2 val from tb where name=a.name order by val desc) order by a.name,a.val 
select a.* from tb a where exists (select count(*) from tb where name = a.name and val > a.val having Count(*) < 2) order by a.name 
/* 
name val memo 
---------- ----------- -------------------- 
a 2 a2(a的第二个值) 
a 3 a3:a的第三个值 
b 4 b4b4 
b 5 b5b5b5b5b5 
*/ 
技术分享

 

--七,假如整行数据有重复,所有的列都相同(例如下表中的第5,6两行数据完全相同)。 
按name分组取最大的两个(N个)val

 代码如下:
技术分享
/* 
数据如下: 
name val memo 
a 2 a2(a的第二个值) 
a 1 a1--a的第一个值 
a 1 a1--a的第一个值 
a 3 a3:a的第三个值 
a 3 a3:a的第三个值 
b 1 b1--b的第一个值 
b 3 b3:b的第三个值 
b 2 b2b2b2b2 
b 4 b4b4 
b 5 b5b5b5b5b5 
*/ 
技术分享

以上是关于hive如何按某一字段分组取最大值所在行的数据的主要内容,如果未能解决你的问题,请参考以下文章

SQL分组取每组前一(或几)条记录(排名)

mysql分组排序取最大值所在行的实现方法

sql server 2008中如何取某字段最大值所在的一条数据(多个字段)

SQL数据分组后取最大值或者取前几个值(依照某一列排序)

MySQL 先按某字段分组,再取每组中前N条记录

在SQL中,如何查询某一字段中最大值的数据