Django ORM在注释多个聚合列时删除不需要的Group by
Posted
技术标签:
【中文标题】Django ORM在注释多个聚合列时删除不需要的Group by【英文标题】:Django ORM remove unwanted Group by when annotate multiple aggregate columns 【发布时间】:2020-12-03 01:27:14 【问题描述】:我想在 django ORM 中创建一个类似这样的查询。
SELECT COUNT(CASE WHEN myCondition THEN 1 ELSE NULL end) as numyear
FROM myTable
以下是我写的 djang ORM 查询
year_case = Case(When(added_on__year = today.year, then=1), output_field=IntegerField())
qs = (ProfaneContent.objects
.annotate(numyear=Count(year_case))
.values('numyear'))
这是由 django orm 生成的查询。
SELECT COUNT(CASE WHEN "analyzer_profanecontent"."added_on" BETWEEN 2020-01-01 00:00:00+00:00 AND 2020-12-31 23:59:59.999999+00:00 THEN 1 ELSE NULL END) AS "numyear" FROM "analyzer_profanecontent" GROUP BY "analyzer_profanecontent"."id"
所有其他事情都很好,但是 django 在末尾放置了一个 GROUP BY 导致多行和错误答案。我根本不想要那个。现在只有一列,但我会放置更多这样的列。
根据评论进行编辑 我将使用 qs 变量来获取我在当前年、月、周中的分类方式的值。
更新 根据 cmets 和答案,我来到这里让我澄清一下。我只想在数据库端执行此操作(显然使用 Django ORM 而不是 RAW SQL)。它是一个简单的 sql 查询。在 Python 端做任何事情都会效率低下,因为数据可能太大。这就是为什么我希望数据库根据 CASE 条件获得记录总和的原因。 以后我会添加更多这样的列,所以像 len() 或 .count 这样的列将不起作用。
我只想使用 Django ORM 创建上述查询(没有自动附加的 GROUP BY)。
【问题讨论】:
我有点不清楚你打算如何使用这个 qs 变量 可能是我,但是....这不只是ProfaneContent.objects.filter(added_on__year=today.year).count()
的一种奇特的写作方式吗?
是的,但正如我提到的,我还将添加其他列。所以计数不会在那里工作。这些也是解决方法。我只是想要一个 django ORM 查询。
是的,但是在这种情况下算作注释是无稽之谈。正如@hynekcer 所展示的那样,这只会返回一行。 Annotate 用于向每一行添加一些内容,而不是一组行。
也许混淆来自您对计数的命名和使用。你真的想用一个布尔值来注释每一行,表明它是当前年份吗?因为那么只需摆脱 Count 并正确命名它。
【参考方案1】:
在注解中使用聚合时,django 需要进行某种分组,如果没有,则默认为主键。因此,您需要在.annotate()
之前使用.values()
。 Please see django docs.
但是要完全删除组,您可以使用静态值,并且 django 足够聪明,可以完全删除它,因此您可以使用 ORM 查询获得结果,如下所示:
year_case = Case(When(added_on__year = today.year, then=1), output_field=IntegerField())
qs = (ProfaneContent.objects
.annotate(dummy_group_by = Value(1))
.values('dummy_group_by')
.annotate(numyear=Count(year_case))
.values('numyear'))
【讨论】:
谢谢一百万。这就是我要找的东西。恰到好处。 我给 +1 是因为它也有效,但我没有看到任何用例,其中带有虚拟 group_by 的 annotate() 方法可能比 aggregate() 方法更好(请参阅下面的答案)。如果可以用 annotate() 替换为虚拟组,您能否解释一下它如何更好或为什么存在方法 aggregate()? @hynekcer 是的,用例是有问题的。典型的 XY 问题。【参考方案2】:如果您只需要总结一行,那么您应该使用.aggregate() 方法而不是annotate()。
result = ProfaneContent.objects.aggregate(
numyear=Count(year_case),
# ... more aggregated expressions are possible here
)
你会得到一个简单的结果列字典:
>>> result
'numyear': 7, ...
生成的 SQL 查询没有分组,完全符合要求:
SELECT
COUNT(CASE WHEN myCondition THEN 1 ELSE NULL end) as numyear
-- and more possible aggregated expressions
FROM myTable
【讨论】:
【参考方案3】:列表理解怎么样:
# get all the objects
profane = ProfaneContent.objects.all()
# Something like this
len([pro for pro in profane if pro.numyear=today.year])
如果 num 年相等,它会将其添加到列表中,因此您可以检查 len()
获取计数
希望这会有所帮助!
【讨论】:
它肯定会给我想要的答案,但这不是应该的。如果我们只能用 SQL 查询做同样的事情,我会更好。让数据库处理这些东西。 这样会更好 ProfaneContent.objects.filter(numyear=today.year).count()。我通常不喜欢编写 SQL 查询并建议不要使用 SQL 查询,除非你绝对必须这样做,因为 ORM 可以完成你需要的一切。 我猜你误会了。通过说 SQL,我的意思是让 django 的 ORM 处理 SQL 查询生成,并让计算发生在数据库端。此外,正如我所提到的,我也需要在当前月份和本周做同样的事情。因此,如果我使用“过滤器”,我需要进行 3 次查询,这将导致 3 次不同的数据库命中。这太可怕了。【参考方案4】:这就是我用 SQL 编写它的方式。
SELECT SUM(CASE WHEN myCondition THEN 1 ELSE 0 END) as numyear
FROM myTable
SELECT
SUM(CASE WHEN "analyzer_profanecontent"."added_on"
BETWEEN 2020-01-01 00:00:00+00:00
AND 2020-12-31 23:59:59.999999+00:00
THEN 1
ELSE 0
END) AS "numyear"
FROM "analyzer_profanecontent"
GROUP BY "analyzer_profanecontent"."id"
如果您打算在 SELECT 子句中使用其他项目,我建议您也使用 group by,如下所示:
SELECT SUM(CASE WHEN myCondition THEN 1 ELSE 0 END) as numyear
FROM myTable
GROUP BY SUM(CASE WHEN myCondition THEN 1 ELSE 0 END)
【讨论】:
我知道如何在 SQL 中做到这一点。此外,正如您提到的查询,它有一个由其 ID 组成的组。这在我的情况下是不正确的。它将为每条记录生成总和,这根本没有意义。 我已经提到我想删除那个 group by 子句。而且我还想知道如何使用 Django ORM 而不是原始 SQL。以上是关于Django ORM在注释多个聚合列时删除不需要的Group by的主要内容,如果未能解决你的问题,请参考以下文章