如何减少 Django 在查询子模型属性时进行的数据库调用次数?
Posted
技术标签:
【中文标题】如何减少 Django 在查询子模型属性时进行的数据库调用次数?【英文标题】:How can I reduce the number DB calls Django makes when querying child model properties? 【发布时间】:2018-11-07 22:34:59 【问题描述】:我很难弄清楚基本的优化,希望能得到一些见解或有人指出正确的方向。
简化模型:
class TimeStampedModel(models.Model):
created = models.DateTimeField(auto_now_add=True, db_index=True)
modified = models.DateTimeField(auto_now=True)
class Meta:
abstract = True
class Venue(TimeStampedModel):
name = models.CharField(unique=True, max_length=200, db_index=True)
class Offer(TimeStampedModel):
venue_associated = models.ForeignKey(Venue, on_delete=models.CASCADE, db_index=True)
content = models.TextField(max_length=500, db_index=True)
简化视图:
class MapView(ListView):
fields = ["name"]
model = Venue
template_name = "venues/venue_map.html"
简化模板:
% for venue in venue_list %
venue.name
venue.offer_set.latest.created
venue.offer_set.latest.content
% endfor %
这会产生大量的数据库调用 (~400)。遍历整个venue_list 只会创建一个调用(+1 未关联),但两个offer_set 调用会创建新调用(每个调用200 个)。
因此,我假设为 Venue 模型创建一个单独的属性“latest”会有所帮助,因为它至少可以处理加倍的“latest”调用,但不会。我还尝试过重写通用 ListView 方法,但这些方法并没有让我得到任何帮助。
可能有一种我没有看到的方法。目前,我能想到的只是向 Venue 模型添加额外的字段来复制信息,并且需要额外的逻辑来管理它。
编辑:
我试过了: queryset = Venue.objects.prefetch_related('offer_set')
它所做的只是创建一个额外的查询:
SELECT ••• FROM "offers_offer" WHERE "offers_offer"."venue_associated_id" IN (1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 200)
同样的 400 个查询(具有不同的 id 值)仍在运行:
SELECT ••• FROM "offers_offer" WHERE "offers_offer"."venue_associated_id" = 1 ORDER BY "offers_offer"."order" ASC, "offers_offer"."created" DESC LIMIT 1
【问题讨论】:
我认为我的答案中的编辑会有所帮助。这是完成您正在尝试的事情的非理想方式,但它会起作用。 【参考方案1】:通常您可以使用 prefetch_related(..)
在额外的查询中获取所有相关模型,因此我们可以将其添加到 ListView
的 queryset
属性中:
class MapView(ListView):
fields = ["name"]
model = Venue
queryset = Venue.objects.prefetch_related('offer_set')
template_name = "venues/venue_map.html"
【讨论】:
编辑了我最初的问题。 latest() 仍然最有可能是创建新查询的部分。有没有解决方法或更好的方法?【参考方案2】:Django 提供了类似select_related
和prefetch_related
的结构来优化相关的对象查询操作。在你的情况下,它应该是:
queryset = Venue.objects.all().prefetch_related('offer_set')
对于最新的项目,您是否尝试过在Venue
模型中添加ordering
元值,如下所示:
class Offer(TimeStampedModel):
......
class Meta:
ordering = ['created']
% for venue in venue_list %
venue.name
% with venue.offer_set|first as first_offer %
first_offer.created
first_offer.content
% endwith %
% endfor %
【讨论】:
编辑了我最初的问题。 latest() 仍然最有可能是创建新查询的部分。有没有解决方法或更好的方法? 为什么要获取latest()
?
对于每个场所,我的模板都需要最新的报价对象。
@UssiSonad ,我已经更新了上面的答案。请让我知道它是否有效
谢谢,经过细微改动的编辑答案解决了我的整个问题。从 400 到 2 个查询。我不得不使用场地.offer_set.first 而不是场地.offer_set|first 但它有效。非常感谢。【参考方案3】:
您正在访问关系数据,在 django 中,如果您通过正常查询访问相关数据,它将一次又一次地命中 db。因此,为此您可以对特定关系使用 prefetch_related 查询,该查询一次性获取该表的所有数据库,当您迭代该项目时,它不会再次访问数据库。所有数据都将来自一个查询。
queryset = Venue.objects.prefetch_related('offer_set')
【讨论】:
编辑了我最初的问题。 latest() 仍然最有可能是创建新查询的部分。有没有解决方法或更好的方法?【参考方案4】:当您将这些Queries
变为Django ORM
时,让我们更详细地分析 Django 的幕后情况。
Querysets
是懒惰的,意思是:(根据Django Docs)
在内部,一个 QuerySet 可以被构造、过滤、切片,并且通常在不实际访问数据库的情况下传递。在您对查询集进行评估之前,实际上不会发生任何数据库活动。
Querysets
只能在您执行以下任一操作时进行评估:
iteration
、slicing
、pickling
、repr()
、len()
、list()
或 bool()
好吧,在这里,如果我们看到您正在执行的 SQL 查询:
PS:你可以在你的shell中通过这段日志来查看将访问数据库的SQL查询:
import logging
l = logging.getLogger('django.db.backends')
l.setLevel(logging.DEBUG)
l.addHandler(logging.StreamHandler())
result_queryset = Venue.objects.all()
SELECT "venue"."id"......(all model fields)......FROM "venue";
这里,在上面的 SQL 查询中,除了ForeignKeys
的id
之外,您不会看到任何related fields
对象。
现在,如果您访问上述查询集的任何相关字段,ORM 将再次访问数据库以获取它。这可以通过prefetch_related()
或select_related()
来防止(两者之间的差异here)
result_queryset = Venue.objects.prefetch_related('offer_set')
# Django creates API accessors for the "other" side of the relationship
# Here, _set is used to access that "other" side i.e. related objects
A NEW SQL QUERY THAT FETCHES YOUR offer_set OBJECTS via a JOIN (that is how prefetch_related works)
此外,每当您的模板需要 name
、offer_set.latest.created
、offer_set.latest.content
时,由于对 Querysets
的这种懒惰评估,它会访问数据库。
编辑:
当您编辑了您的问题时,您希望将所有 Venue
对象作为一个整体,并且不希望 400 个查询访问您的数据库,我将建议一种非理想的方法来做到这一点-
在将查询集作为上下文传递给模板之前,预先评估您的查询集。我已经在上面提到了很多方法。
【讨论】:
由于您提到了评估,因此我更加接近了。对视图的评估也需要在模板中添加额外的逻辑。因此,我选择了 @cached_property 装饰器及其在模型中的失效。这不是一个理想的解决方案,但似乎比模板中的视图/逻辑中的评估更干净,并杀死了 200 个查询。进步了,谢谢。 很高兴它有帮助:)以上是关于如何减少 Django 在查询子模型属性时进行的数据库调用次数?的主要内容,如果未能解决你的问题,请参考以下文章