Postgres:使用游标更新的惊人性能

Posted

技术标签:

【中文标题】Postgres:使用游标更新的惊人性能【英文标题】:Postgres: Surprising performance on updates using cursor 【发布时间】:2011-01-23 20:00:19 【问题描述】:

考虑以下两个 Python 代码示例,它们实现了相同但具有显着且令人惊讶的性能差异。

import psycopg2, time

conn = psycopg2.connect("dbname=mydatabase user=postgres")
cur = conn.cursor('cursor_unique_name')  
cur2 = conn.cursor()

startTime = time.clock()
cur.execute("SELECT * FROM test for update;")
print ("Finished: SELECT * FROM test for update;: " + str(time.clock() - startTime));
for i in range (100000):
    cur.fetchone()
    cur2.execute("update test set num = num + 1 where current of cursor_unique_name;")
print ("Finished: update starting commit: " + str(time.clock() - startTime));
conn.commit()
print ("Finished: update : " + str(time.clock() - startTime));

cur2.close()
conn.close()

还有:

import psycopg2, time

conn = psycopg2.connect("dbname=mydatabase user=postgres")
cur = conn.cursor('cursor_unique_name')  
cur2 = conn.cursor()

startTime = time.clock()
for i in range (100000):
    cur2.execute("update test set num = num + 1 where id = " + str(i) + ";")
print ("Finished: update starting commit: " + str(time.clock() - startTime));
conn.commit()
print ("Finished: update : " + str(time.clock() - startTime));

cur2.close()
conn.close()

表test的create语句为:

CREATE TABLE test (id serial PRIMARY KEY, num integer, data varchar);

该表包含 100000 行和 VACUUM ANALYZE TEST;已运行。

我多次尝试都得到以下结果。

第一个代码示例:

Finished: SELECT * FROM test for update;: 0.00609304950429
Finished: update starting commit: 37.3272754429
Finished: update : 37.4449708474

第二个代码示例:

Finished: update starting commit: 24.574401185
Finished committing: 24.7331461431

这对我来说非常令人惊讶,因为我认为应该完全相反,这意味着根据this 的答案,使用游标的更新应该明显更快。

【问题讨论】:

【参考方案1】:

我不认为测试是平衡的-您的第一个代码是从游标中获取数据,然后进行更新,而第二个代码是通过 ID 盲目更新而不获取数据。我假设第一个代码序列转换为 FETCH 命令,然后是 UPDATE- 所以这是两个客户端/服务器命令周转,而不是一个。

(同样,第一个代码从锁定表中的每一行开始 - 这会将整个表拉入缓冲区缓存 - 虽然考虑到这一点,但我怀疑这实际上会影响性能,但你没有提到它)

另外,我认为对于一个简单的表,通过 ctid 更新(我假设这是 where current of... 的工作原理)和通过主键更新之间不会有太大区别 - pkey 更新是额外的索引查找,但除非索引是巨大的,否则不会有太大的退化。

对于像这样更新 100,000 行,我怀疑大部分时间都用于生成额外的元组并将它们插入或附加到表中,而不是定位前一个元组以将其标记为已删除。

【讨论】:

以上是关于Postgres:使用游标更新的惊人性能的主要内容,如果未能解决你的问题,请参考以下文章

Json 类型列元素更新 - Postgres

postgres函数之游标

使用 Postgres 函数作为 ActiveRecord 模型

postgres 游标出错

postgres服务之加密

mysql使用游标遍历数据进行批量针对性更新数据,急求mysql大神解答