hive中如何快速查询区间留存

Posted 每天一个摸鱼技巧

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hive中如何快速查询区间留存相关的知识,希望对你有一定的参考价值。

常规的数据取数过程中,难免会遇到一些留存数据,针对一次性取一段的留存数据做简单的介绍

例如需求需要取day1 到day2之间的留存数据:

select 
        t1.day_num
        count(t1.id)  as active_num        ---当日活跃用户数
        ,count(t2.id) as retained_num    ---当日活跃用户在次日留存
    from 
        (
         select 
            day_num
            ,id 
         from table_name
         where between '$day1' and '$day2'
        group by day_num,id
         )t1
    left join  
         (
         select 
            date_add(from_unixtime(unix_timestamp(day_num,'yyyyMMdd'),'yyyy-MM-dd'),-1) as day_num
            ,id 
         from table_name
         where date_add(from_unixtime(unix_timestamp('$day1','yyyyMMdd'),'yyyy-MM-dd'),1) and date_add(from_unixtime(unix_timestamp('$day2','yyyyMMdd'),'yyyy-MM-dd'),1)
         group by date_add(from_unixtime(unix_timestamp(day_num,'yyyyMMdd'),'yyyy-MM-dd'),-1),id
         )t2 
    on t1.id=t2.id and t1.day_num = t2.day_num
    group by t1.day_num

通过日期的加减达到日期的同步,通过日期的增加取次日留存数据

以上是关于hive中如何快速查询区间留存的主要内容,如果未能解决你的问题,请参考以下文章

[hive]留存率(次日/七日/...)

Hive面试题系列第三题-用户留存问题

Hive面试题系列第三题-用户留存问题

Hive面试题系列第三题-用户留存问题

hive关于用户留存率的计算

有关如何从 Hive 查询中设置 Hive 属性的示例