按包括 MAX() 在内的几列分组以限制行但显示不在分组中的列

Posted

技术标签:

【中文标题】按包括 MAX() 在内的几列分组以限制行但显示不在分组中的列【英文标题】:Group by a few columns including MAX() to limit rows but display columns not in group by 【发布时间】:2021-01-09 03:28:55 【问题描述】:

我每 5 分钟将 sp_whoisactive 输出到日志表中,并且想要聚合诸如经过时间或 cpu 之类的列。我获得唯一记录的最佳机会是 session_id、login_time、login_name,我想要每个唯一记录的 MAX(collection_time)。

我的问题是如何在一个查询中做到这一点?

我尝试了各种变体,但始终无法获得所需的输出。我最终做了 2 个步骤 1) 分组到 ##Temp 表和 2) 然后将 ##temp 加入日志表以获取报告中我想要的所有列。

第 1 步查询:

    enter code hereIF(OBJECT_ID('tempdb..##TEMP') IS NOT NULL) BEGIN DROP TABLE ##TEMP END
        SELECT *
            INTO ##TEMP
            FROM (
select distinct Session_id, login_name, login_time, max(collection_time) as MaxCollection
from [MyDB].[DBA].[WhoIsActive]
group by login_name,  session_id, login_time
                ) AS X

第 2 步查询:

DECLARE @yesterday DATETIME, @today DATETIME
SET @yesterday = DATEADD(hh,12,DATEADD(dd,DATEDIFF(dd,0,GETDATE()-1),0))
SET @today = DATEADD(hh,11,DATEADD(dd,DATEDIFF(dd,0,GETDATE()-0),0))

SELECT 
       tt.[session_id]
      ,tt.[tasks]
      ,tt.[login_time]
      ,tt.[login_name]
      ,tt.[start_time]
      ,tt.[collection_time]      
      ,tt.[dd hh:mm:ss.mss] as ElapsedTime
      ,(Substring(tt.[dd hh:mm:ss.mss],1,2) * 86400) + (Substring(tt.[dd hh:mm:ss.mss],4,2) * 3600) + (Substring(tt.[dd hh:mm:ss.mss],7,2) * 60) + (Substring(tt.[dd hh:mm:ss.mss],10,2)) as totalseconds
      ,tt.[host_name]
      ,tt.[status]
      ,tt.[CPU]
      ,tt.[program_name]

FROM [MyDB].[DBA].[WhoIsActive] tt
right JOIN ##TEMP kk
on tt.session_id = kk.session_id and tt.collection_time = kk.MaxCollection
--where kk.start_time between @yesterday and @today --and kk.login_name like '%ETL%'
order by tt.login_name asc, tt.session_id asc, login_time desc

【问题讨论】:

【参考方案1】:

我获得唯一记录的最佳机会是session_idlogin_timelogin_name,我想要每个唯一记录的MAX(collection_time)

如果你只想要每个元组的最大收集时间,那么使用聚合:

select session_id, login_time, login_name, max(collection_time) max_collection_time
from whoisactive
group by session_id, login_time, login_name

另一方面,如果你想要整个对应的行,那么一个选项是row_number()

select *
from (
    select w.*,
        row_number() over(partition by session_id, login_time, login_name order by collection_time desc) rn
    from whoisactive w
) t
where rn = 1

【讨论】:

GMB 也许我没有很好地表达我的问题。对于每个不同的元组,我只想要包含 MAX(collection_time) 的一行以及可能请求的任何或所有列。每个元组可能有很多行,因为一项作业可能会运行一两个小时,而我每 5 分钟收集一次状态。我只想要最后一个集合。希望这能解释得更好。 当你说“如果你想要整个相应的行”而不是列时,我将它解释为它所说的意思,但是当我运行它时,它似乎做了我想要的。不能说我曾经使用过 row_number() over(partition 所以我必须阅读它。由于我的表中没有 login_time 我不得不重建并且只有一小部分数据要测试。这可能是我的答案。

以上是关于按包括 MAX() 在内的几列分组以限制行但显示不在分组中的列的主要内容,如果未能解决你的问题,请参考以下文章

MySQL 查询慢,按限制按顺序分组

Mysql按聚合排序和限制分组[重复]

如何分组并保留已排序文件上的组顺序

linux怎么区别文本文件和二进制文件

Power BI:将项目分组在一列中,具有不同值的其他列显示为几列

sql按字段分组,排序,并且找出每组最大的数据