在 Django REST 框架中优化数据库查询

Posted

技术标签:

【中文标题】在 Django REST 框架中优化数据库查询【英文标题】:Optimizing database queries in Django REST framework 【发布时间】:2014-12-22 23:18:19 【问题描述】:

我有以下型号:

class User(models.Model):
    name = models.Charfield()
    email = models.EmailField()

class Friendship(models.Model):
    from_friend = models.ForeignKey(User)
    to_friend = models.ForeignKey(User)

这些模型用于以下视图和序列化程序:

class GetAllUsers(generics.ListAPIView):
    authentication_classes = (SessionAuthentication, TokenAuthentication)
    permission_classes = (permissions.IsAuthenticated,)
    serializer_class = GetAllUsersSerializer
    model = User

    def get_queryset(self):
        return User.objects.all()

class GetAllUsersSerializer(serializers.ModelSerializer):

    is_friend_already = serializers.SerializerMethodField('get_is_friend_already')

    class Meta:
        model = User
        fields = ('id', 'name', 'email', 'is_friend_already',)

    def get_is_friend_already(self, obj):
        request = self.context.get('request', None)

        if request.user != obj and Friendship.objects.filter(from_friend = user):
            return True
        else:
            return False

所以基本上,对于GetAllUsers 视图返回的每个用户,我想打印出该用户是否是请求者的朋友(实际上我应该检查 from_ 和 to_friend,但对于问题点无关紧要)

我看到的是,对于数据库中的 N 个用户,有 1 个查询用于获取所有 N 个用户,然后在序列化程序的 get_is_friend_already 中进行 1xN 个查询

有没有办法在 rest-framework 方式中避免这种情况?也许类似于将select_related 包含的查询传递给具有相关Friendship 行的序列化程序?

【问题讨论】:

【参考方案1】:

Django REST Framework 无法自动为您优化查询,就像 Django 本身不会那样。您可以在一些地方查看提示,including the Django documentation。 has been mentioned Django REST Framework 应该是自动的,尽管有一些与之相关的挑战。

这个问题非常适合您的情况,您使用的是自定义 SerializerMethodField,它为返回的每个对象发出请求。因为您正在发出新请求(使用Friends.objects 管理器),所以优化查询非常困难。

不过,您可以通过不创建新查询集而是从其他地方获取朋友数来改善问题。这将需要在 Friendship 模型上创建向后关系,很可能是通过字段上的 related_name 参数,因此您可以预取所有 Friendship 对象。但这仅在您需要完整对象时才有用,而不仅仅是对象的计数。

这将产生类似于以下内容的视图和序列化程序:

class Friendship(models.Model):
    from_friend = models.ForeignKey(User, related_name="friends")
    to_friend = models.ForeignKey(User)

class GetAllUsers(generics.ListAPIView):
    ...

    def get_queryset(self):
        return User.objects.all().prefetch_related("friends")

class GetAllUsersSerializer(serializers.ModelSerializer):
    ...

    def get_is_friend_already(self, obj):
        request = self.context.get('request', None)

        friends = set(friend.from_friend_id for friend in obj.friends)

        if request.user != obj and request.user.id in friends:
            return True
        else:
            return False

如果您只需要对象的计数(类似于使用queryset.count()queryset.exists()),您可以在查询集中使用反向关系的计数来注释行。这将在您的get_queryset 方法中完成,通过在末尾添加.annotate(friends_count=Count("friends"))(如果related_namefriends),这会将每个对象的friends_count 属性设置为朋友的数量。

这将产生类似于以下内容的视图和序列化程序:

class Friendship(models.Model):
    from_friend = models.ForeignKey(User, related_name="friends")
    to_friend = models.ForeignKey(User)

class GetAllUsers(generics.ListAPIView):
    ...

    def get_queryset(self):
        from django.db.models import Count

        return User.objects.all().annotate(friends_count=Count("friends"))

class GetAllUsersSerializer(serializers.ModelSerializer):
    ...

    def get_is_friend_already(self, obj):
        request = self.context.get('request', None)

        if request.user != obj and obj.friends_count > 0:
            return True
        else:
            return False

这两种解决方案都将避免 N+1 查询,但您选择的解决方案取决于您要实现的目标。

【讨论】:

很好的答案凯文。非常感谢。唯一的小修正是,我需要调用 obj.friends.all() 中的朋友而不是 obj.friends 中的朋友 .. 相应的线程在这里:***.com/questions/6314841/… 如果用户有成千上万的朋友,第一种使用“prefetch_related”的方法会很麻烦。在这种情况下,最好只为每个用户进行 n 次查询 Kevin,我在视图上执行了 prefetch_related 方法,但是当我在序列化程序内的对象上调用 .all() 时,它仍然会调用数据库。基于我的 sql 日志。【参考方案2】:

描述的N+1问题是Django REST Framework性能优化过程中的头号问题,所以从各种意见来看,它需要更扎实的方法然后直接prefetch_related()select_related()get_queryset() 视图方法中。

根据收集到的信息,这里有一个消除N+1的强大解决方案(以OP的代码为例)。它基于装饰器,对于大型应用程序的耦合度稍低。

序列化器:

class GetAllUsersSerializer(serializers.ModelSerializer):
    friends = FriendSerializer(read_only=True, many=True)

    # ...

    @staticmethod
    def setup_eager_loading(queryset):
        queryset = queryset.prefetch_related("friends")

        return queryset

这里我们使用静态类方法来构建具体的查询集。

装饰者:

def setup_eager_loading(get_queryset):
    def decorator(self):
        queryset = get_queryset(self)
        queryset = self.get_serializer_class().setup_eager_loading(queryset)
        return queryset

    return decorator

此函数修改返回的查询集,以便为setup_eager_loading 序列化方法中定义的模型获取相关记录。

查看:

class GetAllUsers(generics.ListAPIView):
    serializer_class = GetAllUsersSerializer

    @setup_eager_loading
    def get_queryset(self):
        return User.objects.all()

这种模式可能看起来有点矫枉过正,但它肯定更 DRY,并且比在视图内直接修改查询集更有优势,因为它允许对相关实体进行更多控制并消除相关对象的不必要嵌套。

【讨论】:

此方法是否也适用于 POST 结果?我已经让 setup_eager_loading 为 GET 工作,但是当客户端 POST 并且结果实例作为对 POST 的响应返回时,似乎没有应用任何 prefetch_related 子句。【参考方案3】:

使用这个元类DRF optimize ModelViewSet MetaClass

from django.utils import six

@six.add_metaclass(OptimizeRelatedModelViewSetMetaclass)
class MyModelViewSet(viewsets.ModelViewSet):
    queryset = MyModel.objects.all()
    serializer_class = MyModelSerializer

【讨论】:

这是一个很好的解决方案!我使用它,它开箱即用。【参考方案4】:

您可以将视图拆分为两个查询。 首先,只获取用户列表(没有is_friend_already 字段)。这只需要一个查询。 二、获取request.user的好友列表。 第三,根据用户是否在 request.user 的好友列表中修改结果。

class GetAllUsersSerializer(serializers.ModelSerializer):
    ... 


class UserListView(ListView):
    def get(self, request):
        friends = request.user.friends
        data = []
        for user in self.get_queryset():
            user_data = GetAllUsersSerializer(user).data
            if user in friends:
                user_data['is_friend_already'] = True
            else:
                user_data['is_friend_already'] = False
            data.append(user_data)
        return Response(status=200, data=data)

【讨论】:

以上是关于在 Django REST 框架中优化数据库查询的主要内容,如果未能解决你的问题,请参考以下文章

Django Rest Framework,数据库查询优化

Django:从 Pandas 到 Django Rest 框架的模型查询集

django框架学习六:优化views.py文件,使用rest_framework中的APIVew和Response返回

如何在 Django rest 框架中捕获 Model.DoesNotExist 异常?

Django Rest Framework 分页极慢计数

尝试覆盖django rest框架中的update方法,以在更新后返回整个查询集