peewee 和 peewee-async:为啥异步速度较慢

Posted

技术标签:

【中文标题】peewee 和 peewee-async:为啥异步速度较慢【英文标题】:peewee and peewee-async: why is async slowerpeewee 和 peewee-async:为什么异步速度较慢 【发布时间】:2016-10-01 06:37:17 【问题描述】:

我正试图围绕 Tornado 和与 Postgresql 的异步连接。我在http://peewee-async.readthedocs.io/en/latest/ 找到了一个可以执行此操作的库。

我设计了一个小测试来比较传统的 Peewee 和 Peewee-async,但不知何故异步的工作速度较慢。

这是我的应用程序:

import peewee
import tornado.web
import logging
import asyncio
import peewee_async
import tornado.gen
import tornado.httpclient
from tornado.platform.asyncio import AsyncIOMainLoop

AsyncIOMainLoop().install()
app = tornado.web.Application(debug=True)
app.listen(port=8888)

# ===========
# Defining Async model
async_db = peewee_async.PooledPostgresqlDatabase(
    'reminderbot',
    user='reminderbot',
    password='reminderbot',
    host='localhost'
)
app.objects = peewee_async.Manager(async_db)
class AsyncHuman(peewee.Model):
    first_name = peewee.CharField()
    messenger_id = peewee.CharField()
    class Meta:
        database = async_db
        db_table = 'chats_human'


# ==========
# Defining Sync model
sync_db = peewee.PostgresqlDatabase(
    'reminderbot',
    user='reminderbot',
    password='reminderbot',
    host='localhost'
)
class SyncHuman(peewee.Model):
    first_name = peewee.CharField()
    messenger_id = peewee.CharField()
    class Meta:
        database = sync_db
        db_table = 'chats_human'

# defining two handlers - async and sync
class AsyncHandler(tornado.web.RequestHandler):

    async def get(self):
        """
        An asynchronous way to create an object and return its ID
        """
        obj = await self.application.objects.create(
            AsyncHuman, messenger_id='12345')
        self.write(
            'id': obj.id,
             'messenger_id': obj.messenger_id
        )


class SyncHandler(tornado.web.RequestHandler):

    def get(self):
        """
        An traditional synchronous way
        """
        obj = SyncHuman.create(messenger_id='12345')
        self.write(
            'id': obj.id,
            'messenger_id': obj.messenger_id
        )


app.add_handlers('', [
    (r"/receive_async", AsyncHandler),
    (r"/receive_sync", SyncHandler),
])

# Run loop
loop = asyncio.get_event_loop()
try:
    loop.run_forever()
except KeyboardInterrupt:
    print(" server stopped")

这就是我从 Apache Benchmark 得到的:

ab -n 100 -c 100 http://127.0.0.1:8888/receive_async

Connection Times (ms)
              min  mean[+/-sd] median   max
Connect:        2    4   1.5      5       7
Processing:   621 1049 256.6   1054    1486
Waiting:      621 1048 256.6   1053    1485
Total:        628 1053 255.3   1058    1492

Percentage of the requests served within a certain time (ms)
  50%   1058
  66%   1196
  75%   1274
  80%   1324
  90%   1409
  95%   1452
  98%   1485
  99%   1492
 100%   1492 (longest request)




ab -n 100 -c 100 http://127.0.0.1:8888/receive_sync
Connection Times (ms)
              min  mean[+/-sd] median   max
Connect:        2    5   1.9      5       8
Processing:     8  476 277.7    479    1052
Waiting:        7  476 277.7    478    1052
Total:         15  481 276.2    483    1060

Percentage of the requests served within a certain time (ms)
  50%    483
  66%    629
  75%    714
  80%    759
  90%    853
  95%    899
  98%   1051
  99%   1060
 100%   1060 (longest request)

为什么同步更快?我缺少的瓶颈在哪里?

【问题讨论】:

【参考方案1】:

详细解释:

http://techspot.zzzeek.org/2015/02/15/asynchronous-python-and-databases/

简单解释一下:同步 Python 代码很简单,主要在标准库的 socket 模块中实现,它是纯 C。异步 Python 代码比同步代码更复杂。每个请求都需要多次执行主事件循环代码,这些代码是用 Python 编写的(此处为 asyncio 案例),因此与 C 代码相比有很多开销。

像您这样的基准测试显着显示了异步的开销,因为您的应用程序和数据库之间没有网络延迟,并且您正在执行大量非常小的数据库操作。由于基准测试的每个其他方面都很快,因此事件循环逻辑的这么多执行增加了总运行时间的很大一部分。

上面链接的 Mike Bayer 的论点是,像这样的低延迟场景是数据库应用程序的典型情况,因此不应在事件循环上运行数据库操作。

异步最适合高延迟场景,例如 websocket 和网络爬虫,在这些场景中,应用程序大部分时间都在等待对等方,而不是大部分时间都在执行 Python。

总结:如果您的应用程序有充分的理由使用异步(它处理速度较慢的对等点),那么为了代码一致,使用异步数据库驱动程序是一个好主意,但会产生一些开销。

如果您出于其他原因不需要异步,请不要进行异步数据库调用,因为它们有点慢。

【讨论】:

那么像 Sanic github.com/channelcat/sanic 这样的异步 Web 框架可以加速吗?它使用Python3.5 + uvloop【参考方案2】:

数据库 ORM 为异步架构引入了许多复杂性。 ORM 中有几个地方可能会发生阻塞,并且可能难以改变为异步形式。发生阻塞的位置也可能因数据库而异。我猜你的结果为什么这么慢是因为有很多未优化的事件循环调用(我可能大错特错,这些天我主要使用 SQLAlchemy 或原始 SQL)。根据我的经验,在线程中执行数据库代码并在可用时产生结果通常更快。我真的不能代表 PeeWee,但 SQLAlchemy 非常适合在多个线程中运行,并且没有太多缺点(但确实存在的缺点非常烦人)。

我建议您使用ThreadPoolExecutor 和同步 Peewee 模块尝试您的实验,并在线程中运行数据库函数。您将不得不对您的主代码进行更改,但是如果您问我,这将是值得的。例如,假设您选择使用回调代码,那么您的 ORM 查询可能如下所示:

from concurrent.futures import ThreadPoolExecutor

executor = ThreadPoolExecutor(max_workers=10)

def queryByName(name):
    query = executor.submit(db_model.findOne, name=name)
    query.add_done_callback(processResult)

def processResult(query):
    orm_obj = query.results()
    # do stuff with the results

您可以在协程中使用yeild fromawait,但这对我来说有点问题。另外,我还不太精通协程。只要开发人员注意死锁、数据库会话和事务,这个 sn-p 应该可以很好地与 Tornado 配合使用。如果线程出现问题,这些因素确实会减慢您的应用程序。

如果您喜欢冒险,MagicStack(asyncio 背后的公司)有一个名为 asyncpg 的项目,它应该非常快!我一直想尝试,但还没有找到时间:(

【讨论】:

我可以同意你的大部分回答,但是这句话:“MagicStack(asyncio 背后的公司)”错误地引出了他们负责的想法或 asyncio 的作者。他们为 async/await 做出了贡献,但这使得他们只不过是另一个贡献者,系统中的另一个部分。无论如何,我支持你,因为你的例子很有用,可以帮助其他操作人员在该领域进行研究。

以上是关于peewee 和 peewee-async:为啥异步速度较慢的主要内容,如果未能解决你的问题,请参考以下文章

为啥 JavaScript 中没有逻辑异或?

基数排序。为啥选择异或?

EXAMPLE FOR PEEWEE 多姿势使用 PEEWEE

peewee连接池使用指南

Peewee 在运行时注册新模型

Peewee:如何更新特定字段?