面试题: LEAD 和 LAG 求每个用户的页面停留时长

Posted 宝哥大数据[离职找工作中,大佬帮内推下]

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了面试题: LEAD 和 LAG 求每个用户的页面停留时长相关的知识,希望对你有一定的参考价值。

我们先来看看这两个函数的语法:

LEAD(col,n,default) OVER()

  • 说明: 用于统计窗口内向下第n行的值
  • 参数1: 为要取值的列名
  • 参数2: 为向下第n行,默认值为1,这个值是固定的,不能动态的变化
  • 参数3: 为默认值,当向下第n行的值为NULL时,取默认值,如果不指定,则默认值为NULL

LAG(col,n,default) OVER()

  • 说明: 用于统计窗口内向上第n行的值,与lead()刚好相反
  • 参数1: 为要取值的列名
  • 参数2: 为向上第n行,默认值为1,这个值是固定的,不能动态的变化
  • 参数3: 为默认值,当向上第n行的值为NULL时,取默认值,如果不指定,则默认值为NULL

实例:求每个用户的页面停留时长

页面停留时长:用户进入A页面,又进入B页面。进入A页面的时间为date1,进入B页面的时间为date2,那么在A页面的停留时间为date2-date1。实际生产场景中,可能会考虑不超过30min等等因素。

1.1、创造数据

CREATE TABLE log_info
( 
 uid string,
 dateline string,
 page string
);
-- 模拟数据 
INSERT INTO log_info VALUES ('1001', '2021-08-10 10:18:31', 'url3'),
('1001', '2021-08-10 10:01:24', 'url1'),
('1001', '2021-08-10 10:05:22', 'url2'),
('1002', '2021-08-10 10:10:31', 'url1'),
('1002', '2021-08-10 10:15:31', 'url2'),
('1002', '2021-08-10 10:18:31', 'url3');

1.2、常规方法: 排序,自关联

1.2.1、排序

SELECT *, 
    ROW_NUMBER() OVER(PARTITION BY uid ORDER BY dateline) rank
FROM log_info 

1.2.2、自关联

SELECT t1.uid,
    t1.dateline start_time,
    t2.dateline end_time,
    t1.page
FROM 
    (SELECT *,
         ROW_NUMBER() OVER(PARTITION BY uid ORDER BY  dateline) rank
    FROM log_info ) t1
LEFT JOIN 
    (SELECT *,
         ROW_NUMBER() OVER(PARTITION BY uid ORDER BY  dateline) rank
    FROM log_info ) t2
ON t1.uid = t2.uid AND t1.rank+1=t2.rank;

用户进入一个页面和跳到另一个页面的时间,通过这两个时间的差值就是我们要计算的用户页面停留时长

1.3、LEAD

SELECT   uid,
   dateline,
   lead(dateline,1) over(distribute by uid sort by dateline asc) as dateline_end,
   page
 FROM log_info; 

以上是关于面试题: LEAD 和 LAG 求每个用户的页面停留时长的主要内容,如果未能解决你的问题,请参考以下文章

面试题: LEAD 和 LAG 求每个用户的页面停留时长

带有 where 子句的窗口函数(LEAD/LAG)?

SQL windows 函数 LEAD/LAG 但只考虑某些值?

Hive 分析函数lead、lag实例应用

面试题: Hive-SQL查询连续活跃登录用户思路详解

面试题: Hive-SQL查询连续活跃登录用户思路详解