从数据库中选择一列中的值不同且限制为 5 个最新的行

Posted

技术标签:

【中文标题】从数据库中选择一列中的值不同且限制为 5 个最新的行【英文标题】:Select rows from database where the value in one column is distinct and limit to 5 latest 【发布时间】:2015-01-20 03:19:06 【问题描述】:

我有一个图像数据库,图像行使用查看它们的最后一个 IP 进行更新,并使用当前时间戳更新 date_updated 列。我正在尝试查看最后 5 张图片,但只查看每个不同的 ip 地址,我不希望一个人淹没最后查看的结果。

小提琴:: http://sqlfiddle.com/#!2/d5b05/16

期望的结果: 从此数据集中进行选择时所需的结果:

SELECT * FROM `image` ORDER BY `date_updated` DESC;

|   IMAGE | WIDTH | HEIGHT | DATE_ADDED | DATE_UPDATED | UPDATED_BY_IP |
|---------|-------|--------|------------|--------------|---------------|
| 1x1XGY4 |  1920 |   1080 | 1417546414 |   1421712314 |   192.168.0.7 |
| 1x1XGY3 |  1920 |   1080 | 1417546413 |   1421712313 |   192.168.0.7 |
| 1x1XGY2 |  1920 |   1080 | 1417546412 |   1421712312 |  192.168.0.10 |
| 1x1XGY1 |  1920 |   1080 | 1417546411 |   1421712311 |  192.168.0.10 |
| 1oApS54 |  1920 |   1080 | 1417138874 |   1421685474 |   192.168.0.2 |
| 1oApS53 |  1920 |   1080 | 1417138873 |   1421685473 |   192.168.0.2 |
| 1oApS52 |  1920 |   1080 | 1417138872 |   1421685472 |  192.168.0.10 |
| 1oApS51 |  1920 |   1080 | 1417138871 |   1421685471 |  192.168.0.10 |
| 1ydhtQ4 |  1920 |   1080 | 1421460434 |   1421685154 |   192.168.0.6 |
| 1ydhtQ3 |  1920 |   1080 | 1421460433 |   1421685153 |   192.168.0.7 |
| 1ydhtQ2 |  1920 |   1080 | 1421460432 |   1421685152 |  192.168.0.10 |
| 1ydhtQ1 |  1920 |   1080 | 1421460431 |   1421685151 |   192.168.0.5 |
| 1WyQib4 |  1920 |   1080 | 1420869354 |   1421634384 |   192.168.0.8 |
| 1WyQib3 |  1920 |   1080 | 1420869353 |   1421634383 |   192.168.0.2 |
| 1WyQib2 |  1920 |   1080 | 1420869352 |   1421634382 |   192.168.0.3 |
| 1WyQib1 |  1920 |   1080 | 1420869351 |   1421634381 |  192.168.0.10 |
| 1izDqg4 |  1920 |   1080 | 1416948144 |   1421608564 |   192.168.0.2 |
| 1izDqg3 |  1920 |   1080 | 1416948143 |   1421608563 |   192.168.0.2 |
| 1izDqg2 |  1920 |   1080 | 1416948142 |   1421608562 |   192.168.0.5 |
| 1izDqg1 |  1920 |   1080 | 1416948141 |   1421608561 |  192.168.0.10 |

使用伪选择语句:

SELECT * FROM image WHERE updated_by_ip 是不同的 ORDER BY date_updated DESC LIMIT 5

|   IMAGE | WIDTH | HEIGHT | DATE_ADDED | DATE_UPDATED | UPDATED_BY_IP |
|---------|-------|--------|------------|--------------|---------------|
| 1x1XGY4 |  1920 |   1080 | 1417546414 |   1421712314 |   192.168.0.7 |
| 1x1XGY2 |  1920 |   1080 | 1417546412 |   1421712312 |  192.168.0.10 |
| 1oApS54 |  1920 |   1080 | 1417138874 |   1421685474 |   192.168.0.2 |
| 1ydhtQ4 |  1920 |   1080 | 1421460434 |   1421685154 |   192.168.0.6 |
| 1ydhtQ1 |  1920 |   1080 | 1421460431 |   1421685151 |   192.168.0.5 |

衣柜结果:

我能想到的最好的方法是:

SELECT DISTINCT updated_by_ip, MAX(date_updated) AS date_updated 
FROM `image` GROUP BY updated_by_ip ORDER BY date_updated DESC LIMIT 5;

这给了我:

| UPDATED_BY_IP | DATE_UPDATED |
|---------------|--------------|
|   192.168.0.7 |   1421712314 |
|  192.168.0.10 |   1421712312 |
|   192.168.0.2 |   1421685474 |
|   192.168.0.6 |   1421685154 |
|   192.168.0.5 |   1421685151 |

我可以做一个

while (SELECT DISTINCT updated_by_ip ...)

    $result_rows[] = SELECT * FROM image 
                    WHERE updated_by_ip = query[updated_by_ip] 
                    AND date_updated = query[date_updated] LIMIT 1

但是,希望找到一种方法来做到这一点,而不必进行大量的后期处理和额外的查询,而且通过 updated_by_ip 和 date_updated 进行选择似乎不太稳定。

谢谢。

【问题讨论】:

【参考方案1】:

要在没有 mysql GROUP BY 扩展的情况下执行此操作,您可以试试这个:

首先,使用此子查询从五个不同的 IP 号码中获取最近的更新时间。

     SELECT updated_by_ip, MAX(date_updated) as date_updated
       FROM image  
      GROUP BY updated_by_ip
      ORDER BY 2 DESC
      LIMIT 5

如果您的表很大,(updated_by_ip, date_updated) 上的索引将有助于提高性能。

然后,将其连接到该子查询的主查询以获得结果。

SELECT i.*
  FROM image i
  JOIN (
         SELECT updated_by_ip, MAX(date_updated) as date_updated
           FROM image  
          GROUP BY updated_by_ip
          ORDER BY 2 DESC
          LIMIT 5
        ) m USING(updated_by_ip, date_updated)
ORDER BY i.date_updated DESC

看到这个:http://sqlfiddle.com/#!2/d5b05/21/0

【讨论】:

【参考方案2】:

这不是最漂亮的查询(根据 SQL 标准是不正确的),但它在 MySQL 中有效:

SELECT * FROM `image`
GROUP BY updated_by_ip
ORDER BY `date_updated` DESC

在 Postgres 中,您将使用 DISTINCT ON(...),但 MySQL 不支持,因此仅按您想要区分的列进行分组是最简单的解决方法。另一种方法是使用子查询,但执行起来不太理想。

【讨论】:

感谢您的建议,但是这不会返回为特定 IP 查看的最新图像,分组会为每个 IP 结果返回任意行。【参考方案3】:

一种方法是使用变量来枚举行:

SELECT i.*
FROM (SELECT i.*,
             (@rn := if(@uip = updated_by_ip, @rn + 1,
                        if(@uip := updated_by_ip, 1, 1)
                       )
             )
      FROM image i CROSS JOIN
           (SELECT @uip := '', @rn := 0) vars
      WHERE updated_by_ip 
      ORDER BY updated_by_ip, date_updated DESC
     ) i
WHERE seqnum <= 5;

【讨论】:

以上是关于从数据库中选择一列中的值不同且限制为 5 个最新的行的主要内容,如果未能解决你的问题,请参考以下文章

如何从一列中选择不同的类别数据?

Pyspark:如何根据另一列中的匹配值从数组中的第一次出现中选择直到最后的值

从所有列中选择不同的值

在一列中选择该值未在另一列中出现 5 次的值

Pyspark - 从每列中选择不同的值

使用 dplyr [重复] 有条件地将一列中的值替换为另一列中的值