postgresql:合并行保留一些信息,没有循环

Posted

技术标签:

【中文标题】postgresql:合并行保留一些信息,没有循环【英文标题】:postgresql: merge rows keeping some information, without loops 【发布时间】:2015-08-05 12:48:00 【问题描述】:

我有一个每个用户的通话列表,有时以分钟分隔。用户可以在这些电话中购买或不购买东西。 当用户在最后一次通话后 45 分钟内拨打电话时,我需要考虑与第一次通话是同一个电话。

我需要得到最终的通话次数(合计通话间隔不到 45 分钟) 以及每位用户购买商品的电话次数。

例如,我有一个这样的列表:

buyer       timestamp              bougth_flag        
tom         20150201 9:15                 1
anna        20150201 9:25                 0
tom         20150201 10:15                0
tom         20150201 10:45                1
tom         20150201 10:48                1
anna        20150201 11:50                0
tom         20150201 11:52                0
anna        20150201 11:54                0

决赛桌是:

buyer       time_started        calls              articles_bought        
tom         20150201 9:15          1                        1
anna        20150201 9:25          1                        0
tom         20150201 10:15         3                        2
anna        20150201 10:50         2                        0
tom         20150201 11:52         1                        0

因此,我需要合并相隔不到 45 分钟的行,并且仍然按用户分开。 使用循环很容易做到这一点,但我正在使用的 postgresql 中没有循环或函数/过程。 关于如何做到这一点的任何想法?

谢谢

【问题讨论】:

我使用的 postgresql 中没有循环或函数/过程。呃。请具体。您在使用 Amazon Redshift 吗?如果是这样,这样说。请指定您的 PostgreSQL 版本 (SELECT version()) “列表”是什么意思?它是 postgres 中的表吗? 是的,Amazon Redshift 版本 8.0.2。是的,列表就是表格 如果第 1 电话在下午 1:00 打进来,在下午 1:45 打电话给 #2,在下午 1:46 打电话给 #3。即使 #3 和 #1 相隔超过 45 分钟,是否应该合并 3 个调用? 嗨,它们确实应该合并。最后一次通话重新激活该通话。 【参考方案1】:

由于您事先不知道“电话”将持续多长时间(您可能会在一整天内每 30 分钟接到某个买家的电话 - 请参阅对问题的评论),您只能通过递归来解决这个问题CTE。 (请注意,我将您的列 'timestamp' 更改为 'ts'。切勿将关键字用作表或列名。)

WITH conversations AS (
  WITH RECURSIVE calls AS (
    SELECT buyer, ts, bought_flag, row_number() OVER (ORDER BY ts) AS conversation, 1::int AS calls
    FROM (
      SELECT buyer, ts, lag(ts) OVER (PARTITION BY buyer ORDER BY ts) AS lag, bought_flag
      FROM list) sub
    WHERE lag IS NULL OR ts - lag > interval '45 minutes'
    UNION ALL
    SELECT l.buyer, l.ts, l.bought_flag, c.conversation, c.calls + 1
    FROM list l
    JOIN calls c ON c.buyer = l.buyer AND l.ts > c.ts
    WHERE l.ts - c.ts < interval '45 minutes'
  )
  SELECT buyer, ts, bought_flag, conversation, max(calls) AS calls
  FROM calls
  GROUP BY buyer, ts, bought_flag, conversation
  order by conversation, ts
)
SELECT buyer, min(ts) AS time_started, max(calls) AS calls, sum(bought_flag) AS articles_bought
FROM conversations
GROUP BY buyer, conversation
ORDER BY time_started

几句解释:

内部递归 CTE 的起始项有一个子查询,它从表中获取每次调用的基本数据,以及上一次调用的时间。内部 CTE 起始项中的主查询仅保留没有先前调用 (lag IS NULL) 或先前调用超过 45 分钟的那些行。因此,这些是我在这里称之为“对话”的最初呼叫。对话获得一列和一个 id,它只是查询中的行号,另一列用于跟踪对话“呼叫”中的呼叫次数。 在递归术语中,同一会话中的连续呼叫被添加,“呼叫”计数器增加。 当呼叫非常接近时(例如 10:45 和 10:15 之后的 10:48),那么后面的呼叫可能会被多次包含,这些重复的呼叫 (10:48) 通过选择每次对话的顺序中最早的呼叫。 最后,在主查询中,“bought_flag”列是针对每个买家的每次对话求和的。

【讨论】:

【参考方案2】:

最大的问题是您需要每 45 分钟对结果进行分组,这很棘手。这个查询是一个很好的起点,但它并不完全正确。它应该可以帮助您开始:

SELECT a.buyer,
       MIN(a.timestamp),
       COUNT(a),
       COUNT(b),
       SUM(a.bougth_flag),
       SUM(b.bougth_flag)
FROM calls a
LEFT JOIN calls b ON (a.buyer = b.buyer
                      AND a.timestamp != b.timestamp
                      AND a.timestamp < b.timestamp
                      AND a.timestamp + '45 minutes'::INTERVAL > b.timestamp)
GROUP BY a.buyer,
         DATE_TRUNC('hour', a.timestamp) ;

结果:

┌───────┬─────────────────────┬───────┬───────┬─────┬─────┐
│ buyer │         min         │ count │ count │ sum │ sum │
├───────┼─────────────────────┼───────┼───────┼─────┼─────┤
│ tom   │ 2015-02-01 11:52:00 │     1 │     0 │   0 │   Ø │
│ anna  │ 2015-02-01 11:50:00 │     2 │     1 │   0 │   0 │
│ anna  │ 2015-02-01 09:25:00 │     1 │     0 │   0 │   Ø │
│ tom   │ 2015-02-01 09:15:00 │     1 │     0 │   1 │   Ø │
│ tom   │ 2015-02-01 10:15:00 │     4 │     3 │   2 │   3 │
└───────┴─────────────────────┴───────┴───────┴─────┴─────┘

【讨论】:

您好,沃尔夫,谢谢您的回答。这确实是一个不错的起点。我认为挑战来自 FuzzyTree 提到的要求:如果呼叫 #1 在下午 1:00 进入,在下午 1:45 呼叫 #2 并在下午 1:46 呼叫 #3,则应合并三个呼叫【参考方案3】:

感谢 Patrick 关于原始版本的通知。 您在这里肯定需要 WINDOW 函数,但 CTE 在这里是可选的。

with start_points as(
  select tmp.*,
  --calculate distance between start points
  (lead(ts) OVER w)-ts AS start_point_lead from( select t.*, ts - (lag(ts) OVER w) AS lag from test t window w as (PARTITION BY buyer ORDER BY ts)
  ) tmp where lag is null or lag>interval '45 minutes' 
        window w as (PARTITION BY buyer ORDER BY ts) order by ts
 )
 select s.buyer, s.ts, count(*), sum(t.bougth_flag) from start_points s join test t 
 on t.buyer=s.buyer and (t.ts-s.ts<s.start_point_lead or s.start_point_lead is null)and t.ts>=s.ts
group by s.buyer, s.ts order by s.ts

【讨论】:

" 但不是在 cmets 中给出的附加条件" 你的意思是评论:“如果呼叫 #1 在下午 1:00 进来怎么办,.....?” 是的,这将是 cmets 中唯一的附加条件。 感谢您对初始版本的看法是正确的。我编辑了它。如您所见,可以结合滞后/超前功能,不要使用 WITH RECURSIVE。 PS 我在提交我的第一个答案和时间戳之前就看到了你的答案-> ts 是最后一分钟的更改。

以上是关于postgresql:合并行保留一些信息,没有循环的主要内容,如果未能解决你的问题,请参考以下文章

合并两个不同长度的python pandas数据帧,但将所有行保留在输出数据帧中

Google 表格 - 循环通过表格合并数据

git:清理 git 历史记录并仅在 master 中保留合并的提交

PostgreSQL 9.5 - 将 NULL 与 JSON 合并时更新不起作用

PostgreSQL窗口函数(转)

matlab - 如何合并/交错 2 个矩阵?