如何减少 Django 在查询子模型属性时进行的数据库调用次数?

Posted

技术标签:

【中文标题】如何减少 Django 在查询子模型属性时进行的数据库调用次数?【英文标题】:How can I reduce the number DB calls Django makes when querying child model properties? 【发布时间】:2018-11-07 22:34:59 【问题描述】:

我很难弄清楚基本的优化,希望能得到一些见解或有人指出正确的方向。

简化模型:

class TimeStampedModel(models.Model):
    created = models.DateTimeField(auto_now_add=True, db_index=True)
    modified = models.DateTimeField(auto_now=True)

    class Meta:
        abstract = True

class Venue(TimeStampedModel):
    name = models.CharField(unique=True, max_length=200, db_index=True)

class Offer(TimeStampedModel):
    venue_associated = models.ForeignKey(Venue, on_delete=models.CASCADE, db_index=True)
    content = models.TextField(max_length=500, db_index=True)

简化视图:

class MapView(ListView):
    fields = ["name"]
    model = Venue
    template_name = "venues/venue_map.html"

简化模板:

% for venue in venue_list %
     venue.name 
     venue.offer_set.latest.created 
     venue.offer_set.latest.content 
% endfor %

这会产生大量的数据库调用 (~400)。遍历整个venue_list 只会创建一个调用(+1 未关联),但两个offer_set 调用会创建新调用(每个调用200 个)。

因此,我假设为 Venue 模型创建一个单独的属性“latest”会有所帮助,因为它至少可以处理加倍的“latest”调用,但不会。我还尝试过重写通用 ListView 方法,但这些方法并没有让我得到任何帮助。

可能有一种我没有看到的方法。目前,我能想到的只是向 Venue 模型添加额外的字段来复制信息,并且需要额外的逻辑来管理它。

编辑:

我试过了: queryset = Venue.objects.prefetch_related('offer_set')

它所做的只是创建一个额外的查询:

SELECT ••• FROM "offers_offer" WHERE "offers_offer"."venue_associated_id" IN (1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 200)

同样的 400 个查询(具有不同的 id 值)仍在运行:

SELECT ••• FROM "offers_offer" WHERE "offers_offer"."venue_associated_id" = 1 ORDER BY "offers_offer"."order" ASC, "offers_offer"."created" DESC LIMIT 1

【问题讨论】:

我认为我的答案中的编辑会有所帮助。这是完成您正在尝试的事情的非理想方式,但它会起作用。 【参考方案1】:

通常您可以使用 prefetch_related(..) 在额外的查询中获取所有相关模型,因此我们可以将其添加到 ListViewqueryset 属性中:

class MapView(ListView):
    fields = ["name"]
    model = Venue
    queryset = Venue.objects.prefetch_related('offer_set')
    template_name = "venues/venue_map.html"

【讨论】:

编辑了我最初的问题。 latest() 仍然最有可能是创建新查询的部分。有没有解决方法或更好的方法?【参考方案2】:

Django 提供了类似select_relatedprefetch_related 的结构来优化相关的对象查询操作。在你的情况下,它应该是:

   queryset = Venue.objects.all().prefetch_related('offer_set')

对于最新的项目,您是否尝试过在Venue 模型中添加ordering 元值,如下所示:

class Offer(TimeStampedModel):
    ......

    class Meta:
        ordering = ['created']


% for venue in venue_list %
     venue.name 

    % with venue.offer_set|first as first_offer %
     first_offer.created 
     first_offer.content 
     % endwith %

% endfor %

【讨论】:

编辑了我最初的问题。 latest() 仍然最有可能是创建新查询的部分。有没有解决方法或更好的方法? 为什么要获取latest() 对于每个场所,我的模板都需要最新的报价对象。 @UssiSonad ,我已经更新了上面的答案。请让我知道它是否有效 谢谢,经过细微改动的编辑答案解决了我的整个问题。从 400 到 2 个查询。我不得不使用场地.offer_set.first 而不是场地.offer_set|first 但它有效。非常感谢。【参考方案3】:

您正在访问关系数据,在 django 中,如果您通过正常查询访问相关数据,它将一次又一次地命中 db。因此,为此您可以对特定关系使用 prefetch_related 查询,该查询一次性获取该表的所有数据库,当您迭代该项目时,它不会再次访问数据库。所有数据都将来自一个查询。

 queryset = Venue.objects.prefetch_related('offer_set')

【讨论】:

编辑了我最初的问题。 latest() 仍然最有可能是创建新查询的部分。有没有解决方法或更好的方法?【参考方案4】:

当您将这些Queries 变为Django ORM 时,让我们更详细地分析 Django 的幕后情况。

Querysets 是懒惰的,意思是:(根据Django Docs)

在内部,一个 QuerySet 可以被构造、过滤、切片,并且通常在不实际访问数据库的情况下传递。在您对查询集进行评估之前,实际上不会发生任何数据库活动。

Querysets 只能在您执行以下任一操作时进行评估: iterationslicingpicklingrepr()len()list()bool()

好吧,在这里,如果我们看到您正在执行的 SQL 查询:

PS:你可以在你的shell中通过这段日志来查看将访问数据库的SQL查询:

import logging
l = logging.getLogger('django.db.backends')
l.setLevel(logging.DEBUG)
l.addHandler(logging.StreamHandler())

result_queryset = Venue.objects.all()

SELECT "venue"."id"......(all model fields)......FROM "venue";

这里,在上面的 SQL 查询中,除了ForeignKeysid 之外,您不会看到任何related fields 对象。

现在,如果您访问上述查询集的任何相关字段,ORM 将再次访问数据库以获取它。这可以通过prefetch_related()select_related() 来防止(两者之间的差异here)

result_queryset = Venue.objects.prefetch_related('offer_set')
# Django creates API accessors for the "other" side of the relationship
# Here, _set is used to access that "other" side i.e. related objects

A NEW SQL QUERY THAT FETCHES YOUR offer_set OBJECTS via a JOIN (that is how prefetch_related works)

此外,每当您的模板需要 nameoffer_set.latest.createdoffer_set.latest.content 时,由于对 Querysets 的这种懒惰评估,它会访问数据库。

编辑:

当您编辑了您的问题时,您希望将所有 Venue 对象作为一个整体,并且不希望 400 个查询访问您的数据库,我将建议一种非理想的方法来做到这一点-

在将查询集作为上下文传递给模板之前,预先评估您的查询集。我已经在上面提到了很多方法。

【讨论】:

由于您提到了评估,因此我更加接近了。对视图的评估也需要在模板中添加额外的逻辑。因此,我选择了 @cached_property 装饰器及其在模型中的失效。这不是一个理想的解决方案,但似乎比模板中的视图/逻辑中的评估更干净,并杀死了 200 个查询。进步了,谢谢。 很高兴它有帮助:)

以上是关于如何减少 Django 在查询子模型属性时进行的数据库调用次数?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Django 模型进行不区分大小写的查询

如何在 Django orm 中执行子查询?

如何使用 Django 进行分组和聚合

如何重新排序 Django-Graphene 子查询?

如何在 Mongoose 中增加子文档的属性?

如何在 django 中使用模型进行查询