姜戈。数据库查询:一个字段不同
Posted
技术标签:
【中文标题】姜戈。数据库查询:一个字段不同【英文标题】:Django. Database query: distinct for one field 【发布时间】:2011-12-24 13:42:32 【问题描述】:我在 DB 中有以下字段和数据:
FirstName LastName Date
John Davis 10-10-2011
Joe Gray 20-09-2011
Ann Davis 03-04-2010
Ann Bovis 01-04-2010
如何从具有最新日期和唯一姓氏的 DB 3 项目中选择结果中包含的所有其他字段。这意味着如果结果中包含多个 LastName Davis 的项目应该只有一个具有最新日期的项目。 甚至不知道如何在纯 SQL 上做到这一点 - Django 看起来根本不可能。
EDIT1。 SQL 查询。
我在纯 SQL 上编写查询:
SELECT TOP 3 *
FROM peopleTable as a1
WHERE (select count(*)FROM peopleTable as a2 where a2.LastName=a1.LastName and a2.Date > a1.Date)<=0
ORDER by Date desc
我想如果我在 django 中像纯 SQL 一样使用这个查询会更好。
【问题讨论】:
【参考方案1】:你可以这样做:
最新日期和唯一姓氏
或
所有其他字段
但你不能两者都做。如果您想获取姓氏 Davis 的最新日期,应该检索哪些其他字段,firstname=John 或 firstname=Ann?
我猜测您希望结果如下所示:
FirstName LastName Date
John Davis 10-10-2011
Joe Gray 20-09-2011
Ann Bovis 01-04-2010
Ann Davis 的那一排没有了,因为她不是最近的 Davis。对吗?
在这种情况下,您的原始 SQL 类似于:
SELECT FirstName, LastName, Date
FROM
Table T1
WHERE
NOT EXISTS (
SELECT * FROM Table T2 WHERE T2.LastName=T1.LastName AND T2.Date > T1.Date
)
您可以使用Item.objects.raw() 选项在Django 中编写。你也可以使用extra(where=…)
【讨论】:
原始 SQL 没问题。我在问题的编辑中写了它。效果很好。因此,如果@second 建议调查 django 聚合器不起作用,我将使用原始 SQL。你的意思是我不能两者都做?你刚刚写了两个都做的 SQL 查询,我也写了。 我想这是让我失望的例子。以这种方式按姓氏对人进行分组很奇怪。【参考方案2】:请参阅aggregation 上的文档
猜你想要类似的东西
Item.objects.values("lastname").annotate(
date=Max("date"), firstname=Max("firstname"
).order_by()
您必须对聚合查询中包含的所有字段进行聚合或分组。在您的情况下,您需要 max(data) 和 group_by 姓氏。您还必须为名字选择一些聚合,比如 max
请注意,似乎有一个 postgres bug 用于聚合字符域
【讨论】:
好的,决定使用 raw() 方法。它更容易并且仍然适用于 django 模型。感谢您介绍聚合。【参考方案3】:你不能真正通过查询来做到这一点;这对 SQL 来说逻辑太多了。不过,基于字典键的唯一性,只要稍加巧思,就能得到你想要的。
首先,获取按日期升序排序的查询集。这可能看起来违反直觉,因为您想要最新的日期,但在接下来的步骤中会有意义:
qs = SomeModel.objects.order_by('date')
接下来,我们将在列表推导中使用它来创建 (key, value)
元组(在 Python 3+ 中,您实际上可以进行字典推导,但由于我认识的人并不多,实际上使用 Python 3+,我以这种方式详细说明):
qs_list = [(item.last_name, item) for item in qs]
最后,我们将这个元组列表转换成字典:
items = dict(qs_list)
您现在将拥有一个字典,其中每个 last_name 键都是唯一的。由于字典键必须是唯一的,每个重复的姓氏的最后一个值就是实际出现的那个。由于列表是按日期升序排列的,最后一个值是“最新的”。
您可以将此字典转换回一个直接列表或直接迭代它。唯一的问题是您不再处理 QuerySet,因此您无法执行任何进一步的过滤器等操作。请记住这一点,并在您完全构建查询后最后执行这些步骤。
当然,如果您愿意的话,您可以将所有这些作为一个班轮完成:
items = dict([(item.last_name, item) for item in SomeModel.objects.order_by('date')])
【讨论】:
因此,如果我在 DB 中有 50 000 个项目,所有项目都将在此行的内存中加载:qs_list = [(item.last_name, item) for item in qs]?我想在 DB 中做尽可能多的工作。 哦等等,错过了他想要所有其他字段的部分。什么? 我如何从具有最新日期和唯一姓氏的 DB 3 项目中选择结果中包含所有其他字段。以上是关于姜戈。数据库查询:一个字段不同的主要内容,如果未能解决你的问题,请参考以下文章