hive如何按某一字段分组取最大值所在行的数据

Posted 2023-04-19

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了hive如何按某一字段分组取最大值所在行的数据相关的知识，希望对你有一定的参考价值。

参考技术A :有目录就有签到，你可以到后台提交贴吧目录，每周提交2次，至于速度这个不保证，你也可以后台提交目录后，再到贴吧分类吧申请目录。等你的贴吧有目录后，第二天就会有签到了注意：申请目录必须是那吧的吧主才行。

SQL分组取每组前一(或几)条记录(排名)

mysql分组取每组前几条记录(排名) 附group by与order by的研究

http://www.jb51.net/article/31590.htm

--按某一字段分组取最大(小)值所在行的数据

代码如下:

/* 
数据如下： 
name val memo 
a 2 a2(a的第二个值) 
a 1 a1--a的第一个值 
a 3 a3:a的第三个值 
b 1 b1--b的第一个值 
b 3 b3:b的第三个值 
b 2 b2b2b2b2 
b 4 b4b4 
b 5 b5b5b5b5b5 
*/

--创建表并插入数据：

代码如下:

create table tb(name varchar(10),val int,memo varchar(20)) 
insert into tb values(‘a‘, 2, ‘a2(a的第二个值)‘) 
insert into tb values(‘a‘, 1, ‘a1--a的第一个值‘) 
insert into tb values(‘a‘, 3, ‘a3:a的第三个值‘) 
insert into tb values(‘b‘, 1, ‘b1--b的第一个值‘) 
insert into tb values(‘b‘, 3, ‘b3:b的第三个值‘) 
insert into tb values(‘b‘, 2, ‘b2b2b2b2‘) 
insert into tb values(‘b‘, 4, ‘b4b4‘) 
insert into tb values(‘b‘, 5, ‘b5b5b5b5b5‘) 
go

--一、按name分组取val最大的值所在行的数据。

代码如下:

--方法1：select a.* from tb a where val = (select max(val) from tb where name = a.name) order by a.name 
--方法2： 
select a.* from tb a where not exists(select 1 from tb where name = a.name and val > a.val) 
--方法3： 
select a.* from tb a,(select name,max(val) val from tb group by name) b where a.name = b.name and a.val = b.val order by a.name 
--方法4： 
select a.* from tb a inner join (select name , max(val) val from tb group by name) b on a.name = b.name and a.val = b.val order by a.name 
--方法5 
select a.* from tb a where 1 > (select count(*) from tb where name = a.name and val > a.val ) order by a.name 
/* 
name val memo 
---------- ----------- -------------------- 
a 3 a3:a的第三个值 
b 5 b5b5b5b5b5 

*/

本人推荐使用1,3,4,结果显示1,3,4效率相同，2，5效率差些，不过我3,4效率相同毫无疑问，1就不一样了，想不搞了。

--二、按name分组取val最小的值所在行的数据。

代码如下:

--方法1：select a.* from tb a where val = (select min(val) from tb where name = a.name) order by a.name 
--方法2： 
select a.* from tb a where not exists(select 1 from tb where name = a.name and val < a.val) 
--方法3： 
select a.* from tb a,(select name,min(val) val from tb group by name) b where a.name = b.name and a.val = b.val order by a.name 
--方法4： 
select a.* from tb a inner join (select name , min(val) val from tb group by name) b on a.name = b.name and a.val = b.val order by a.name 
--方法5 
select a.* from tb a where 1 > (select count(*) from tb where name = a.name and val < a.val) order by a.name 
/* 
name val memo 
---------- ----------- -------------------- 
a 1 a1--a的第一个值 
b 1 b1--b的第一个值 
*/

--三、按name分组取第一次出现的行所在的数据。

代码如下:

select a.* from tb a where val = (select top 1 val from tb where name = a.name) order by a.name 
/* 
name val memo 
---------- ----------- -------------------- 
a 2 a2(a的第二个值) 
b 1 b1--b的第一个值 
*/

--四、按name分组随机取一条数据。

代码如下:

select a.* from tb a where val = (select top 1 val from tb where name = a.name order by newid()) order by a.name/* 
name val memo 
---------- ----------- -------------------- 
a 1 a1--a的第一个值 
b 5 b5b5b5b5b5 

*/

--五、按name分组取最小的两个(N个)val

代码如下:

select a.* from tb a where 2 > (select count(*) from tb where name = a.name and val < a.val ) order by a.name,a.valselect a.* from tb a where val in (select top 2 val from tb where name=a.name order by val) order by a.name,a.val 
select a.* from tb a where exists (select count(*) from tb where name = a.name and val < a.val having Count(*) < 2) order by a.name 
/* 
name val memo 
---------- ----------- -------------------- 
a 1 a1--a的第一个值 
a 2 a2(a的第二个值) 
b 1 b1--b的第一个值 
b 2 b2b2b2b2 

*/

--六、按name分组取最大的两个(N个)val

代码如下:

select a.* from tb a where 2 > (select count(*) from tb where name = a.name and val > a.val ) order by a.name,a.val 
select a.* from tb a where val in (select top 2 val from tb where name=a.name order by val desc) order by a.name,a.val 
select a.* from tb a where exists (select count(*) from tb where name = a.name and val > a.val having Count(*) < 2) order by a.name 
/* 
name val memo 
---------- ----------- -------------------- 
a 2 a2(a的第二个值) 
a 3 a3:a的第三个值 
b 4 b4b4 
b 5 b5b5b5b5b5 
*/

--七，假如整行数据有重复，所有的列都相同（例如下表中的第5,6两行数据完全相同）。
按name分组取最大的两个(N个)val

代码如下:

/* 
数据如下： 
name val memo 
a 2 a2(a的第二个值) 
a 1 a1--a的第一个值 
a 1 a1--a的第一个值 
a 3 a3:a的第三个值 
a 3 a3:a的第三个值 
b 1 b1--b的第一个值 
b 3 b3:b的第三个值 
b 2 b2b2b2b2 
b 4 b4b4 
b 5 b5b5b5b5b5 
*/

以上是关于hive如何按某一字段分组取最大值所在行的数据的主要内容，如果未能解决你的问题，请参考以下文章

SQL分组取每组前一(或几)条记录(排名)

mysql分组排序取最大值所在行的实现方法

sql server 2008中如何取某字段最大值所在的一条数据（多个字段）

SQL数据分组后取最大值或者取前几个值(依照某一列排序)

MySQL 先按某字段分组，再取每组中前N条记录

在SQL中，如何查询某一字段中最大值的数据