Django ORM在注释多个聚合列时删除不需要的Group by

Posted

技术标签:

【中文标题】Django ORM在注释多个聚合列时删除不需要的Group by【英文标题】:Django ORM remove unwanted Group by when annotate multiple aggregate columns 【发布时间】:2020-12-03 01:27:14 【问题描述】:

我想在 django ORM 中创建一个类似这样的查询。

SELECT COUNT(CASE WHEN myCondition THEN 1 ELSE NULL end) as numyear
FROM myTable

以下是我写的 djang ORM 查询

year_case = Case(When(added_on__year = today.year, then=1), output_field=IntegerField())

qs = (ProfaneContent.objects
                    .annotate(numyear=Count(year_case))
                    .values('numyear'))

这是由 django orm 生成的查询。

SELECT COUNT(CASE WHEN "analyzer_profanecontent"."added_on" BETWEEN 2020-01-01 00:00:00+00:00 AND 2020-12-31 23:59:59.999999+00:00 THEN 1 ELSE NULL END) AS "numyear" FROM "analyzer_profanecontent" GROUP BY "analyzer_profanecontent"."id"

所有其他事情都很好,但是 django 在末尾放置了一个 GROUP BY 导致多行和错误答案。我根本不想要那个。现在只有一列,但我会放置更多这样的列。

根据评论进行编辑 我将使用 qs 变量来获取我在当前年、月、周中的分类方式的值。

更新 根据 cmets 和答案,我来到这里让我澄清一下。我只想在数据库端执行此操作(显然使用 Django ORM 而不是 RAW SQL)。它是一个简单的 sql 查询。在 Python 端做任何事情都会效率低下,因为数据可能太大。这就是为什么我希望数据库根据 CASE 条件获得记录总和的原因。 以后我会添加更多这样的列,所以像 len() 或 .count 这样的列将不起作用。

我只想使用 Django ORM 创建上述查询(没有自动附加的 GROUP BY)。

【问题讨论】:

我有点不清楚你打算如何使用这个 qs 变量 可能是我,但是....这不只是ProfaneContent.objects.filter(added_on__year=today.year).count()的一种奇特的写作方式吗? 是的,但正如我提到的,我还将添加其他列。所以计数不会在那里工作。这些也是解决方法。我只是想要一个 django ORM 查询。 是的,但是在这种情况下算作注释是无稽之谈。正如@hynekcer 所展示的那样,这只会返回一行。 Annotate 用于向每一行添加一些内容,而不是一组行。 也许混淆来自您对计数的命名和使用。你真的想用一个布尔值来注释每一行,表明它是当前年份吗?因为那么只需摆脱 Count 并正确命名它。 【参考方案1】:

在注解中使用聚合时,django 需要进行某种分组,如果没有,则默认为主键。因此,您需要在.annotate() 之前使用.values()。 Please see django docs.

但是要完全删除组,您可以使用静态值,并且 django 足够聪明,可以完全删除它,因此您可以使用 ORM 查询获得结果,如下所示:

year_case = Case(When(added_on__year = today.year, then=1), output_field=IntegerField())

qs = (ProfaneContent.objects
                    .annotate(dummy_group_by = Value(1))
                    .values('dummy_group_by')
                    .annotate(numyear=Count(year_case))
                    .values('numyear'))

【讨论】:

谢谢一百万。这就是我要找的东西。恰到好处。 我给 +1 是因为它也有效,但我没有看到任何用例,其中带有虚拟 group_by 的 annotate() 方法可能比 aggregate() 方法更好(请参阅下面的答案)。如果可以用 annotate() 替换为虚拟组,您能否解释一下它如何更好或为什么存在方法 aggregate()? @hynekcer 是的,用例是有问题的。典型的 XY 问题。【参考方案2】:

如果您只需要总结一行,那么您应该使用.aggregate() 方法而不是annotate()。

result = ProfaneContent.objects.aggregate(
    numyear=Count(year_case),
    # ... more aggregated expressions are possible here
)

你会得到一个简单的结果列字典:

>>> result
'numyear': 7, ...

生成的 SQL 查询没有分组,完全符合要求:

SELECT
  COUNT(CASE WHEN myCondition THEN 1 ELSE NULL end) as numyear
  -- and more possible aggregated expressions
FROM myTable

【讨论】:

【参考方案3】:

列表理解怎么样:

# get all the objects
profane = ProfaneContent.objects.all()

# Something like this 
len([pro for pro in profane if pro.numyear=today.year])

如果 num 年相等,它会将其添加到列表中,因此您可以检查 len()

获取计数

希望这会有所帮助!

【讨论】:

它肯定会给我想要的答案,但这不是应该的。如果我们只能用 SQL 查询做同样的事情,我会更好。让数据库处理这些东西。 这样会更好 ProfaneContent.objects.filter(numyear=today.year).count()。我通常不喜欢编写 SQL 查询并建议不要使用 SQL 查询,除非你绝对必须这样做,因为 ORM 可以完成你需要的一切。 我猜你误会了。通过说 SQL,我的意思是让 django 的 ORM 处理 SQL 查询生成,并让计算发生在数据库端。此外,正如我所提到的,我也需要在当前月份和本周做同样的事情。因此,如果我使用“过滤器”,我需要进行 3 次查询,这将导致 3 次不同的数据库命中。这太可怕了。【参考方案4】:

这就是我用 SQL 编写它的方式。

SELECT SUM(CASE WHEN myCondition THEN 1 ELSE 0 END) as numyear
FROM myTable

SELECT 
    SUM(CASE WHEN "analyzer_profanecontent"."added_on" 
                 BETWEEN 2020-01-01 00:00:00+00:00 
                     AND 2020-12-31 23:59:59.999999+00:00 
             THEN 1 
             ELSE 0 
         END) AS "numyear" 
FROM "analyzer_profanecontent" 
GROUP BY "analyzer_profanecontent"."id"

如果您打算在 SELECT 子句中使用其他项目,我建议您也使用 group by,如下所示:

SELECT SUM(CASE WHEN myCondition THEN 1 ELSE 0 END) as numyear
FROM myTable
GROUP BY SUM(CASE WHEN myCondition THEN 1 ELSE 0 END)

【讨论】:

我知道如何在 SQL 中做到这一点。此外,正如您提到的查询,它有一个由其 ID 组成的组。这在我的情况下是不正确的。它将为每条记录生成总和,这根本没有意义。 我已经提到我想删除那个 group by 子句。而且我还想知道如何使用 Django ORM 而不是原始 SQL。

以上是关于Django ORM在注释多个聚合列时删除不需要的Group by的主要内容,如果未能解决你的问题,请参考以下文章

Django聚合查询 orm字段及属性

在 django orm 中对多个注释求和

将 DISTINCT 与多个条件聚合一起使用(注释)

可以单独对多个列进行 GROUP BY 并使用 django ORM 将它们中的每一列聚合到其他列?

相当于按年分组的Django ORM查询集?

通过 ORM 删除多个 Django 对象