SQL Server:跨组(而不是组内)的领先/滞后分析功能

Posted

技术标签:

【中文标题】SQL Server:跨组(而不是组内)的领先/滞后分析功能【英文标题】:SQL Server: Lead/Lag analytic function across groups (and not within groups) 【发布时间】:2013-09-25 17:59:29 【问题描述】:

抱歉,这篇文章很长,但我在下面提供了复制和粘贴示例数据以及可能的解决方案。 问题的相关部分在帖子的上半部分(横线上方)。

我有下表

 Dt          customer_id  buy_time     money_spent
 -------------------------------------------------
 2000-01-04  100          11:00:00.00  2
 2000-01-05  100          16:00:00.00  1
 2000-01-10  100          13:00:00.00  4
 2000-01-10  100          14:00:00.00  3
 2000-01-04  200          09:00:00.00  10
 2000-01-06  200          10:00:00.00  11
 2000-01-06  200          11:00:00.00  5
 2000-01-10  200          08:00:00.00  20

并且想要一个查询来得到这个结果集

 Dt          Dt_next     customer_id  buy_time     money_spent
 -------------------------------------------------------------
 2000-01-04  2000-01-05  100          11:00:00.00  2
 2000-01-05  2000-01-10  100          16:00:00.00  1
 2000-01-10  NULL        100          13:00:00.00  4
 2000-01-10  NULL        100          14:00:00.00  3
 2000-01-04  2000-01-06  200          09:00:00.00  10
 2000-01-06  2000-01-10  200          10:00:00.00  11
 2000-01-06  2000-01-10  200          11:00:00.00  5
 2000-01-10  NULL        200          08:00:00.00  20

即:我希望每个客户 (customer_id) 和每一天 (Dt) 第二天同一客户访问 (Dt_next)。

我已经有一个查询给出了后一个结果集(数据和查询包含在水平规则下方)。但是,它涉及一个left outer join 和两个dense_rank 聚合函数。这种方法对我来说似乎有点笨拙,我认为应该有更好的解决方案。 任何指向替代解决方案的指针都非常感谢!谢谢!

顺便说一句:我使用的是 SQL Server 11,该表有 >>1m 个条目。


我的查询:

 select
   customer_table.Dt
   ,customer_table_lead.Dt as Dt_next
   ,customer_table.customer_id
   ,customer_table.buy_time
   ,customer_table.money_spent
 from
 (
   select 
     #customer_data.*
     ,dense_rank() over (partition by customer_id order by customer_id asc, Dt asc) as Dt_int
   from #customer_data
 ) as customer_table
 left outer join
 (
   select distinct
     #customer_data.Dt
     ,#customer_data.customer_id
     ,dense_rank() over (partition by customer_id order by customer_id asc, Dt asc)-1 as Dt_int
   from #customer_data
 ) as customer_table_lead
 on
 (
   customer_table.Dt_int=customer_table_lead.Dt_int
   and customer_table.customer_id=customer_table_lead.customer_id
 )

样本数据:

 create table #customer_data (
   Dt date not null,
   customer_id int not null,
   buy_time time(2) not null,
   money_spent float not null
 );

 insert into #customer_data values ('2000-01-04',100,'11:00:00',2);
 insert into #customer_data values ('2000-01-05',100,'16:00:00',1);
 insert into #customer_data values ('2000-01-10',100,'13:00:00',4);
 insert into #customer_data values ('2000-01-10',100,'14:00:00',3);

 insert into #customer_data values ('2000-01-04',200,'09:00:00',10);
 insert into #customer_data values ('2000-01-06',200,'10:00:00',11);
 insert into #customer_data values ('2000-01-06',200,'11:00:00',5);
 insert into #customer_data values ('2000-01-10',200,'08:00:00',20);

【问题讨论】:

【参考方案1】:

试试这个查询:

select cd.Dt
    , t.Dt_next
    , cd.customer_id
    , cd.buy_time
    , cd.money_spent
from (
    select Dt
        , LEAD(Dt) OVER (PARTITION BY customer_id ORDER BY Dt) AS Dt_next
        , customer_id
    from (
        select distinct Dt, customer_id
        from #customer_data
    ) t
) t
inner join #customer_data cd on t.customer_id = cd.customer_id and t.Dt = cd.Dt

为什么字段money_spent 有浮点类型?您可能在计算时遇到问题。转换为十进制类型。

【讨论】:

刚刚检查过了。工作,查询更短!我还将使用更大的表检查性能。感谢浮点类型的提示(这只是我在创建示例数据时想到的第一种类型 - 实际表与此处提供的示例数据不同)。 通过类似的要求找到这篇文章,PARTITION BY 是我场景中的答案。也谢谢:)

以上是关于SQL Server:跨组(而不是组内)的领先/滞后分析功能的主要内容,如果未能解决你的问题,请参考以下文章

在SQL Server 2008中领先

熊猫数据框分组和求和,组内,跨行值而不是按列

SQL-Server:继续最后一个值而不是 NULL,分区不正确

我可以将MS Access连接到SQL Server而不是特定的SQL Server数据库吗?

SQL-Server:备份集包含一个数据库的备份,而不是现有的

sql语句 按一列分组 然后再按别一列组内排序?