在 Django REST 框架中优化数据库查询
Posted
技术标签:
【中文标题】在 Django REST 框架中优化数据库查询【英文标题】:Optimizing database queries in Django REST framework 【发布时间】:2014-12-22 23:18:19 【问题描述】:我有以下型号:
class User(models.Model):
name = models.Charfield()
email = models.EmailField()
class Friendship(models.Model):
from_friend = models.ForeignKey(User)
to_friend = models.ForeignKey(User)
这些模型用于以下视图和序列化程序:
class GetAllUsers(generics.ListAPIView):
authentication_classes = (SessionAuthentication, TokenAuthentication)
permission_classes = (permissions.IsAuthenticated,)
serializer_class = GetAllUsersSerializer
model = User
def get_queryset(self):
return User.objects.all()
class GetAllUsersSerializer(serializers.ModelSerializer):
is_friend_already = serializers.SerializerMethodField('get_is_friend_already')
class Meta:
model = User
fields = ('id', 'name', 'email', 'is_friend_already',)
def get_is_friend_already(self, obj):
request = self.context.get('request', None)
if request.user != obj and Friendship.objects.filter(from_friend = user):
return True
else:
return False
所以基本上,对于GetAllUsers
视图返回的每个用户,我想打印出该用户是否是请求者的朋友(实际上我应该检查 from_ 和 to_friend,但对于问题点无关紧要)
我看到的是,对于数据库中的 N 个用户,有 1 个查询用于获取所有 N 个用户,然后在序列化程序的 get_is_friend_already
中进行 1xN 个查询
有没有办法在 rest-framework 方式中避免这种情况?也许类似于将select_related
包含的查询传递给具有相关Friendship
行的序列化程序?
【问题讨论】:
【参考方案1】:Django REST Framework 无法自动为您优化查询,就像 Django 本身不会那样。您可以在一些地方查看提示,including the Django documentation。 has been mentioned Django REST Framework 应该是自动的,尽管有一些与之相关的挑战。
这个问题非常适合您的情况,您使用的是自定义 SerializerMethodField
,它为返回的每个对象发出请求。因为您正在发出新请求(使用Friends.objects
管理器),所以优化查询非常困难。
不过,您可以通过不创建新查询集而是从其他地方获取朋友数来改善问题。这将需要在 Friendship
模型上创建向后关系,很可能是通过字段上的 related_name
参数,因此您可以预取所有 Friendship
对象。但这仅在您需要完整对象时才有用,而不仅仅是对象的计数。
这将产生类似于以下内容的视图和序列化程序:
class Friendship(models.Model):
from_friend = models.ForeignKey(User, related_name="friends")
to_friend = models.ForeignKey(User)
class GetAllUsers(generics.ListAPIView):
...
def get_queryset(self):
return User.objects.all().prefetch_related("friends")
class GetAllUsersSerializer(serializers.ModelSerializer):
...
def get_is_friend_already(self, obj):
request = self.context.get('request', None)
friends = set(friend.from_friend_id for friend in obj.friends)
if request.user != obj and request.user.id in friends:
return True
else:
return False
如果您只需要对象的计数(类似于使用queryset.count()
或queryset.exists()
),您可以在查询集中使用反向关系的计数来注释行。这将在您的get_queryset
方法中完成,通过在末尾添加.annotate(friends_count=Count("friends"))
(如果related_name
是friends
),这会将每个对象的friends_count
属性设置为朋友的数量。
这将产生类似于以下内容的视图和序列化程序:
class Friendship(models.Model):
from_friend = models.ForeignKey(User, related_name="friends")
to_friend = models.ForeignKey(User)
class GetAllUsers(generics.ListAPIView):
...
def get_queryset(self):
from django.db.models import Count
return User.objects.all().annotate(friends_count=Count("friends"))
class GetAllUsersSerializer(serializers.ModelSerializer):
...
def get_is_friend_already(self, obj):
request = self.context.get('request', None)
if request.user != obj and obj.friends_count > 0:
return True
else:
return False
这两种解决方案都将避免 N+1 查询,但您选择的解决方案取决于您要实现的目标。
【讨论】:
很好的答案凯文。非常感谢。唯一的小修正是,我需要调用 obj.friends.all() 中的朋友而不是 obj.friends 中的朋友 .. 相应的线程在这里:***.com/questions/6314841/… 如果用户有成千上万的朋友,第一种使用“prefetch_related”的方法会很麻烦。在这种情况下,最好只为每个用户进行 n 次查询 Kevin,我在视图上执行了 prefetch_related 方法,但是当我在序列化程序内的对象上调用.all()
时,它仍然会调用数据库。基于我的 sql 日志。【参考方案2】:
描述的N+1问题是Django REST Framework性能优化过程中的头号问题,所以从各种意见来看,它需要更扎实的方法然后直接prefetch_related()
或select_related()
在get_queryset()
视图方法中。
根据收集到的信息,这里有一个消除N+1的强大解决方案(以OP的代码为例)。它基于装饰器,对于大型应用程序的耦合度稍低。
序列化器:
class GetAllUsersSerializer(serializers.ModelSerializer):
friends = FriendSerializer(read_only=True, many=True)
# ...
@staticmethod
def setup_eager_loading(queryset):
queryset = queryset.prefetch_related("friends")
return queryset
这里我们使用静态类方法来构建具体的查询集。
装饰者:
def setup_eager_loading(get_queryset):
def decorator(self):
queryset = get_queryset(self)
queryset = self.get_serializer_class().setup_eager_loading(queryset)
return queryset
return decorator
此函数修改返回的查询集,以便为setup_eager_loading
序列化方法中定义的模型获取相关记录。
查看:
class GetAllUsers(generics.ListAPIView):
serializer_class = GetAllUsersSerializer
@setup_eager_loading
def get_queryset(self):
return User.objects.all()
这种模式可能看起来有点矫枉过正,但它肯定更 DRY,并且比在视图内直接修改查询集更有优势,因为它允许对相关实体进行更多控制并消除相关对象的不必要嵌套。
【讨论】:
此方法是否也适用于 POST 结果?我已经让setup_eager_loading
为 GET 工作,但是当客户端 POST 并且结果实例作为对 POST 的响应返回时,似乎没有应用任何 prefetch_related
子句。【参考方案3】:
使用这个元类DRF optimize ModelViewSet MetaClass
from django.utils import six
@six.add_metaclass(OptimizeRelatedModelViewSetMetaclass)
class MyModelViewSet(viewsets.ModelViewSet):
queryset = MyModel.objects.all()
serializer_class = MyModelSerializer
【讨论】:
这是一个很好的解决方案!我使用它,它开箱即用。【参考方案4】:您可以将视图拆分为两个查询。
首先,只获取用户列表(没有is_friend_already
字段)。这只需要一个查询。
二、获取request.user的好友列表。
第三,根据用户是否在 request.user 的好友列表中修改结果。
class GetAllUsersSerializer(serializers.ModelSerializer):
...
class UserListView(ListView):
def get(self, request):
friends = request.user.friends
data = []
for user in self.get_queryset():
user_data = GetAllUsersSerializer(user).data
if user in friends:
user_data['is_friend_already'] = True
else:
user_data['is_friend_already'] = False
data.append(user_data)
return Response(status=200, data=data)
【讨论】:
以上是关于在 Django REST 框架中优化数据库查询的主要内容,如果未能解决你的问题,请参考以下文章
Django:从 Pandas 到 Django Rest 框架的模型查询集
django框架学习六:优化views.py文件,使用rest_framework中的APIVew和Response返回