留存率计算

Posted 2023-05-09

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了留存率计算相关的知识，希望对你有一定的参考价值。

参考技术A 现有一份表格，记录了用户ID及其下单时间

我们使用navicat导入数据

选择表格文件

导入成功后，我们就可以正式开始了

首先，我们找出每个用户的最小日期，即首次下单时间

out:

接着，我们去一下重

out:

关联起来，由此我们可以得到用户ID，下单时间，首次下单时间三个字段

out:

然后我们可以求出1号的人在各个日期有多少人，这样就很容易求出1号的次日留存率，3日留存率，4日留存率....
方法是按最小日期和下单时间分组

out:

其实到这步我们已经一目了然

如果时间差为1，则为次日留存人数，为2，则为三日留存人数，为6，则为七日留存人数；次日留存人数/人数，则为次日留存率

out:

现有一份表，记录了用户ID，购买日期，购买数量，购买金额

我们只要用户ID和下单时间这两列信息，并且去重

out:

改时间列数据类型为时间

out:

找出每个用户的最小购买时间，即首次购买时间

out:

把他们关联起来，得到用户ID，下单时间，首次下单时间

out:

计算留存人数，按最小时间、下单时间分组

out:

现在我们可以清晰的看到1997-01-01的次日留存人数为3，留存率为3/209，三日留存人数为3，留存率为3/209，四日留存人数为2.......

out:

如果我们想看某一日的留存率，我们可以把它筛选出来

out:

在 SQL 中的日期之间每天计算用户留存率

【中文标题】在 SQL 中的日期之间每天计算用户留存率【英文标题】：Calculating user retention on daily basis between the dates in SQL 【发布时间】：2021-09-26 17:25:07 【问题描述】：

我有一个表，其中包含有关 user_ids 的数据，以及他们所有最后登录到应用程序的日期

表：

|----------|--------------|
| User_Id  | log_in_dates |
|----------|--------------|
|   1      |  2021-09-01  |
|   1      |  2021-09-03  |
|   2      |  2021-09-02  |
|   2      |  2021-09-04  |
|   3      |  2021-09-01  |
|   3      |  2021-09-02  |
|   3      |  2021-09-03  |
|   3      |  2021-09-04  |
|   4      |  2021-09-03  |
|   4      |  2021-09-04  |
|   5      |  2021-09-01  |
|   6      |  2021-09-01  |
|   6      |  2021-09-09  |
|----------|--------------|

从上表中，我试图了解用户从今天到过去 90 天的登录行为。

Num_users_no_log_in 定义了从present_day 到前几天 (last_log_in_date) 尚未登录应用的用户数

我想要如下表：

|---------------|------------------|--------------------|-------------------------|
| present_date  | days_difference  | last_log_in_date   |  Num_users_no_log_in    |
|---------------|------------------|--------------------|-------------------------|
|  2021-09-01   |       0          |    2021-09-01      |         0               |
|  2021-09-02   |       1          |    2021-09-01      |         3               |->(Id = 1,5,6)
|  2021-09-02   |       0          |    2021-09-02      |         3               |->(Id = 1,5,6)
|  2021-09-03   |       2          |    2021-09-01      |         2               |->(Id = 5,6)  
|  2021-09-03   |       1          |    2021-09-02      |         1               |->(Id = 2)    
|  2021-09-03   |       0          |    2021-09-03      |         3               |->(Id = 2,5,6)
|  2021-09-04   |       3          |    2021-09-01      |         2               |->(Id = 5,6)  
|  2021-09-04   |       2          |    2021-09-02      |         0               |
|  2021-09-04   |       1          |    2021-09-03      |         1               |->(Id= 1)     
|  2021-09-04   |       0          |    2021-09-04      |         3               |->(Id = 1,5,6)
|    ....       |       ....       |        ....        |         ....  
|---------------|------------------|--------------------|-------------------------|

我能够使用以下查询获得前三列 Present_date | days_difference | last_log_in_date：

with dts as
(
    select distinct log_in from users_table
)
select x.log_in_dates as present_date,
       DATEDIFF(DAY, y.log_in_dates ,x.log_in_dates ) as Days_since_last_log_in,
       y.log_in_dates as log_in_dates 
       from dts x, dts y
       where x.log_in_dates >= y.log_in_dates

不明白怎么才能得到第四列Num_users_no_log_in

【问题讨论】：

您的示例数据不适用于您的示例查询，请检查您的代码和数据，使其重现您在问题中包含的内容。 @Stu 我已经包含了样本表直到2021-09-04，它是正确的你需要解释每一行的预期结果 【参考方案1】：

我不太了解您的需求：是否存在基于用户或日期的值？它基于日期，看起来像（在其他地方您可能会将 user_id 作为第一列），具有多次相同日期是什么意思？我知道您想回顾一下从开始到当前日期的所有日期，但在我看来这并没有什么意义（想象一下您的仪表板在 1 年后！！）

说了这么多，让我们来看看方法吧。在这种情况下，我使用common table extensions 逐步开发。例如，它需要 3 个步骤：

准备时间序列整合连接的日期并执行第一次计算（时间差）最后，计算每天的nb连接数

然后，最终查询将显示所需的结果。

这是我提出的查询，使用 Postgresql 开发（您没有精确地确定您的 dbms，但在这里转换应该不是什么大问题）：

with init_calendar as (
   -- Prepare date series and count total users
   select generate_series(min(log_in_dates), now(), interval  '1 day') as present_date,
          count(distinct user_id) as nb_users
     from users
),
calendar as (
   -- Add connections' dates for each period from the beginning to current date in calendar
   -- and calculate nb days difference for each of them
   -- Syntax my vary depending dbms used
   select distinct present_date, log_in_dates as last_date,
          extract(day from present_date - log_in_dates) as days_difference,
          nb_users
     from init_calendar
     join users on log_in_dates <= present_date
),
usr_con as (
    -- Identify last user connection's dates according to running date
    -- Tag the line to be counted as no connection
    select c.present_date, c.last_date, c.days_difference, c.nb_users,
           u.user_id, max(log_in_dates) as last_con,
           case when max(log_in_dates) = present_date then 0 else 1 end as to_count
      from calendar c
      join users u on u.log_in_dates <= c.last_date
      group by c.present_date, c.last_date, c.days_difference, c.nb_users, u.user_id
)
select present_date, last_date, days_difference,
       nb_users - sum(to_count) as Num_users_no_log_in
from usr_con
 group by present_date, last_date, days_difference, nb_users
 order by present_date, last_date

请注意，由于您在计算中忘记了 user_id = 3，因此与您自己的预期结果有所不同。如果你想玩查询，你可以用dbfiddle

【讨论】：

以上是关于留存率计算的主要内容，如果未能解决你的问题，请参考以下文章