在 Django REST 框架中优化数据库查询

Posted 2023-02-23

技术标签:

【中文标题】在 Django REST 框架中优化数据库查询【英文标题】：Optimizing database queries in Django REST framework 【发布时间】：2014-12-22 23:18:19 【问题描述】：

我有以下型号：

class User(models.Model):
    name = models.Charfield()
    email = models.EmailField()

class Friendship(models.Model):
    from_friend = models.ForeignKey(User)
    to_friend = models.ForeignKey(User)

这些模型用于以下视图和序列化程序：

class GetAllUsers(generics.ListAPIView):
    authentication_classes = (SessionAuthentication, TokenAuthentication)
    permission_classes = (permissions.IsAuthenticated,)
    serializer_class = GetAllUsersSerializer
    model = User

    def get_queryset(self):
        return User.objects.all()

class GetAllUsersSerializer(serializers.ModelSerializer):

    is_friend_already = serializers.SerializerMethodField('get_is_friend_already')

    class Meta:
        model = User
        fields = ('id', 'name', 'email', 'is_friend_already',)

    def get_is_friend_already(self, obj):
        request = self.context.get('request', None)

        if request.user != obj and Friendship.objects.filter(from_friend = user):
            return True
        else:
            return False

所以基本上，对于GetAllUsers 视图返回的每个用户，我想打印出该用户是否是请求者的朋友（实际上我应该检查 from_ 和 to_friend，但对于问题点无关紧要)

我看到的是，对于数据库中的 N 个用户，有 1 个查询用于获取所有 N 个用户，然后在序列化程序的 get_is_friend_already 中进行 1xN 个查询

有没有办法在 rest-framework 方式中避免这种情况？也许类似于将select_related 包含的查询传递给具有相关Friendship 行的序列化程序？

【问题讨论】：

【参考方案1】：

Django REST Framework 无法自动为您优化查询，就像 Django 本身不会那样。您可以在一些地方查看提示，including the Django documentation。 has been mentioned Django REST Framework 应该是自动的，尽管有一些与之相关的挑战。

这个问题非常适合您的情况，您使用的是自定义 SerializerMethodField，它为返回的每个对象发出请求。因为您正在发出新请求（使用Friends.objects 管理器），所以优化查询非常困难。

不过，您可以通过不创建新查询集而是从其他地方获取朋友数来改善问题。这将需要在 Friendship 模型上创建向后关系，很可能是通过字段上的 related_name 参数，因此您可以预取所有 Friendship 对象。但这仅在您需要完整对象时才有用，而不仅仅是对象的计数。

这将产生类似于以下内容的视图和序列化程序：

class Friendship(models.Model):
    from_friend = models.ForeignKey(User, related_name="friends")
    to_friend = models.ForeignKey(User)

class GetAllUsers(generics.ListAPIView):
    ...

    def get_queryset(self):
        return User.objects.all().prefetch_related("friends")

class GetAllUsersSerializer(serializers.ModelSerializer):
    ...

    def get_is_friend_already(self, obj):
        request = self.context.get('request', None)

        friends = set(friend.from_friend_id for friend in obj.friends)

        if request.user != obj and request.user.id in friends:
            return True
        else:
            return False

如果您只需要对象的计数（类似于使用queryset.count() 或queryset.exists()），您可以在查询集中使用反向关系的计数来注释行。这将在您的get_queryset 方法中完成，通过在末尾添加.annotate(friends_count=Count("friends"))（如果related_name 是friends），这会将每个对象的friends_count 属性设置为朋友的数量。

这将产生类似于以下内容的视图和序列化程序：

class Friendship(models.Model):
    from_friend = models.ForeignKey(User, related_name="friends")
    to_friend = models.ForeignKey(User)

class GetAllUsers(generics.ListAPIView):
    ...

    def get_queryset(self):
        from django.db.models import Count

        return User.objects.all().annotate(friends_count=Count("friends"))

class GetAllUsersSerializer(serializers.ModelSerializer):
    ...

    def get_is_friend_already(self, obj):
        request = self.context.get('request', None)

        if request.user != obj and obj.friends_count > 0:
            return True
        else:
            return False

这两种解决方案都将避免 N+1 查询，但您选择的解决方案取决于您要实现的目标。

【讨论】：

很好的答案凯文。非常感谢。唯一的小修正是，我需要调用 obj.friends.all() 中的朋友而不是 obj.friends 中的朋友 .. 相应的线程在这里：***.com/questions/6314841/… 如果用户有成千上万的朋友，第一种使用“prefetch_related”的方法会很麻烦。在这种情况下，最好只为每个用户进行 n 次查询 Kevin，我在视图上执行了 prefetch_related 方法，但是当我在序列化程序内的对象上调用 .all() 时，它仍然会调用数据库。基于我的 sql 日志。【参考方案2】：

描述的N+1问题是Django REST Framework性能优化过程中的头号问题，所以从各种意见来看，它需要更扎实的方法然后直接prefetch_related()或select_related() 在get_queryset() 视图方法中。

根据收集到的信息，这里有一个消除N+1的强大解决方案（以OP的代码为例）。它基于装饰器，对于大型应用程序的耦合度稍低。

序列化器：

class GetAllUsersSerializer(serializers.ModelSerializer):
    friends = FriendSerializer(read_only=True, many=True)

    # ...

    @staticmethod
    def setup_eager_loading(queryset):
        queryset = queryset.prefetch_related("friends")

        return queryset

这里我们使用静态类方法来构建具体的查询集。

装饰者：

def setup_eager_loading(get_queryset):
    def decorator(self):
        queryset = get_queryset(self)
        queryset = self.get_serializer_class().setup_eager_loading(queryset)
        return queryset

    return decorator

此函数修改返回的查询集，以便为setup_eager_loading 序列化方法中定义的模型获取相关记录。

查看：

class GetAllUsers(generics.ListAPIView):
    serializer_class = GetAllUsersSerializer

    @setup_eager_loading
    def get_queryset(self):
        return User.objects.all()

这种模式可能看起来有点矫枉过正，但它肯定更 DRY，并且比在视图内直接修改查询集更有优势，因为它允许对相关实体进行更多控制并消除相关对象的不必要嵌套。

【讨论】：

此方法是否也适用于 POST 结果？我已经让 setup_eager_loading 为 GET 工作，但是当客户端 POST 并且结果实例作为对 POST 的响应返回时，似乎没有应用任何 prefetch_related 子句。【参考方案3】：

使用这个元类DRF optimize ModelViewSet MetaClass

from django.utils import six

@six.add_metaclass(OptimizeRelatedModelViewSetMetaclass)
class MyModelViewSet(viewsets.ModelViewSet):
    queryset = MyModel.objects.all()
    serializer_class = MyModelSerializer

【讨论】：

这是一个很好的解决方案！我使用它，它开箱即用。【参考方案4】：

您可以将视图拆分为两个查询。首先，只获取用户列表（没有is_friend_already 字段）。这只需要一个查询。二、获取request.user的好友列表。第三，根据用户是否在 request.user 的好友列表中修改结果。

class GetAllUsersSerializer(serializers.ModelSerializer):
    ... 


class UserListView(ListView):
    def get(self, request):
        friends = request.user.friends
        data = []
        for user in self.get_queryset():
            user_data = GetAllUsersSerializer(user).data
            if user in friends:
                user_data['is_friend_already'] = True
            else:
                user_data['is_friend_already'] = False
            data.append(user_data)
        return Response(status=200, data=data)

【讨论】：

以上是关于在 Django REST 框架中优化数据库查询的主要内容，如果未能解决你的问题，请参考以下文章

Django Rest Framework，数据库查询优化

Django：从 Pandas 到 Django Rest 框架的模型查询集

django框架学习六：优化views.py文件，使用rest_framework中的APIVew和Response返回

如何在 Django rest 框架中捕获 Model.DoesNotExist 异常？

Django Rest Framework 分页极慢计数

尝试覆盖django rest框架中的update方法，以在更新后返回整个查询集