在 PostgreSQL 中查找集合之间的所有行

Posted

技术标签:

【中文标题】在 PostgreSQL 中查找集合之间的所有行【英文标题】:Find all rows in between a set in PostgreSQL 【发布时间】:2019-10-09 21:00:08 【问题描述】:

我有一个名为tc_fuel 的表,它接收来自 GPS 车辆的所有燃料相关数据,我想获取最后一个“油箱使用情况”来计算整个油箱的 MPG,但是油箱满时的读数(100) 有时会在 2 行或 3 行或更多行后重复,所以我剩下 2 个 100 的值彼此相邻,我希望能够获得最后一个“填充”开始和结束 id。

到目前为止我所拥有的:

SELECT
    "tc_fuel".deviceid,
    "tc_fuel"."id",
    "tc_fuel".fuel,
    "tc_fuel"."fuelUsed",
    "tc_fuel"."fuelUsed"
FROM "tc_fuel"
WHERE fuel=100
    AND deviceid=19
ORDER BY ID
DESC LIMIT 2

然后我进入 php 检查 id 差异是否超过 100 条记录以检查燃料值是否彼此相邻,但这比我想知道是否有更好的方法做的工作更多.

例如,这辆车以满油箱启动,然后降至 6% 油箱并加满油箱,我希望能够获取最后一个油箱的所有数据。

id    | deviceId  | fuel
------+-----------+-------
1     | 19        | 100  <-- This should be starting point 
2     | 19        | 97  
3     | 19        | 100  
4     | 19        | 96
5     | 19        | 94
6     | 19        | .... (keeps dropping)
7     | 19        | 33
8     | 19        | 31
9     | 19        | 30
10    | 19        | ....
11    | 19        | 6
12    | 19        | 5
13    | 19        | 6    <-- This should be end point (will flag this id as processed)
14    | 19        | 100  <-- Starts all over again in next iteration of the php script
15    | 19        | 99
16    | 19        | 98
17    | 19        | 100
18    | 19        | 99
19    | 19        | 97
20    | 19        | 96
21    | 19        | ....

【问题讨论】:

不是一个出色的数据库专家,我会循环使用结果并将它们加起来,并带有一个计数器。当我达到 100 时,我就有了读取的值的总数和数量。可能有一些东西可以用纯 SQL 完成......我想。 【参考方案1】:

“填充”的定义有点模糊。当燃料值上升超过 50 时,我会假设这是一次加油。替换为您选择的数字。似乎新坦克必须以fuel = 100 开头(尽管这是一个奇怪的情况)。我将其添加为评论 - 取消评论以激活:

SELECT *
FROM  (
   SELECT *, count(*) FILTER (WHERE fillup) OVER (PARTITION BY device_id ORDER BY id) AS tank
   FROM  (
      SELECT *
           , fuel - lag(fuel, 1, 0) OVER (PARTITION BY device_id ORDER BY id) > 50
             -- AND fuel = 100  -- additional condition(s)?
             AS fillup
      FROM   tbl
      ) sub1
   ) sub2
WHERE  device_id = 19
AND    tank = 1;

db小提琴here

在子查询 sub1 中,使用 window function lag() 计算每个设备的先前燃料条目与当前燃料条目之间的差异。值得注意的是,我使用具有 3 个参数的变体,提供 0 作为缺失行的默认值,以覆盖每个分区的第一行。增加超过 50 表示新的填充。

在子查询 sub2 中,使用另一个窗口函数计算一段时间内的填充次数,从而为每一行分配一个“罐”号。

在外部SELECT 中,选择您的设备和“罐”填充的编号。瞧。

如果将条件WHERE device_id = 19 移动到最里面的suqbquery,则可以删除PARTITION 子句。速度更快,用途更少。

关于FILTER 子句:

How can I simplify this game statistics query? Conditional lead/lag function PostgreSQL?

只获取给定设备的最后一个坦克

根据您的评论,定义为“上次油箱从 20 或以下填充到 100”。

我假设稍后的时间点对应于更高的id 值。 (请注意,串行列在并发写入负载下可能会出现极端情况。)

最简单的方法:倒序从下往上数:

SELECT *
FROM  (
   SELECT *, count(*) FILTER (WHERE fillup) OVER (ORDER BY id DESC) AS tank
  FROM  (
      SELECT *, lag(fuel, 1, 0) OVER (ORDER BY id DESC) = 100
                AND fuel <= 20 AS fillup
      FROM   tbl
      WHERE  device_id = 19
      ) sub1
   ) sub2
WHERE  tank = 0
-- ORDER  BY id  -- optional to get result in ascending order

db小提琴here

为此,按程序穿过行可能更快,因为这只需要一次通过,并且可以在找到第一个坦克后立即停止。 通过tbl(device_id, id DESC) 上的索引来支持它。

示例代码:

GROUP BY and aggregate sequential numeric values How to number consecutive records per island?

【讨论】:

得到第一个填充,而不是最后一个,对吧? @LaurenzAlbe:“最后一个”,意思是“最后一个圣诞节,我给了你我的心,但第二天……”。现在使用明确的“前面”。虽然“圣诞节前......”真的没有削减它。 :) 这太好了,我怎样才能只搜索最近的填充而不是全部? @Ron:定义“最近”。 最近,例如上次从 20 到 100,因为这将每天运行,我只想要“最后”填充而不是所有时间【参考方案2】:
SELECT min(id) AS first_id,
       max(id) AS last_id,
       deviceid
FROM (SELECT id, deviceid, fuel,
             count(*) FILTER (WHERE refilled)
                OVER (PARTITION BY deviceid ORDER BY id DESC) AS filling
      FROM (SELECT id, deviceid, fuel,
                   fuel < lead(luel, 1, 0)
                             OVER (PARTITION BY deviceid ORDER BY id) AS before_fill
            FROM tc_fuel
           ) AS refill
     ) AS fills
WHERE filling = 1
GROUP BY deviceid;

首先,我在注油之前标记条目。

然后,我通过计算这些标记来标记馅料:0 表示当前馅料,1 表示上一个馅料,依此类推。

最后,我得到了当前填充之前最后一个填充的第一个和最后一个id

WHERE deviceid = 19 扔到最里面的查询中以仅获取单个设备的数据。

【讨论】:

以上是关于在 PostgreSQL 中查找集合之间的所有行的主要内容,如果未能解决你的问题,请参考以下文章

如何在 postgresql 中更改所有视图的所有者

查找分隔符之间的所有匹配项

Postgresql的基本使用

JOIN 集合返回函数结果

如何在 postgresql 中进行查询,以查找所有启动时间超过 6 小时的记录?

使用 JOOQ 在 PostgreSQL 中以秒为单位查找和求和时间戳之间的差异