提高 PostgreSQL 查询性能
Posted
技术标签:
【中文标题】提高 PostgreSQL 查询性能【英文标题】:Improve PostgreSQL query performance 【发布时间】:2013-02-17 20:05:11 【问题描述】:在我的服务器上运行此查询时速度很慢,我不明白为什么。谁能帮我弄清楚? 查询:
SELECT
"t_dat"."t_year" AS "c0",
"t_dat"."t_month" AS "c1",
"t_dat"."t_week" AS "c2",
"t_dat"."t_day" AS "c3",
"t_purs"."p_id" AS "c4",
sum("t_purs"."days") AS "m0",
sum("t_purs"."timecreated") AS "m1"
FROM "t_dat", "t_purs"
WHERE "t_purs"."created" = "t_dat"."t_key"
AND "t_dat"."t_year" = 2013
AND "t_dat"."t_month" = 3
AND "t_dat"."t_week" = 9
AND "t_dat"."t_day" IN (1,2)
AND "t_purs"."p_id" IN (
'4','15','18','19','20','29',
'31','35','46','56','72','78')
GROUP BY
"t_dat"."t_year",
"t_dat"."t_month",
"t_dat"."t_week",
"t_dat"."t_day",
"t_purs"."p_id"
解释分析:
HashAggregate(成本=12252.04..12252.04 行=1 宽度=28)(实际时间=10212.374..10212.384 行=10 循环=1) -> 嵌套循环(成本=0.00..12252.03 行=1 宽度=28)(实际时间=3016.006..10212.249 行=14 循环=1) 加入过滤器:(t_dat.t_key = t_purs.created) -> Seq Scan on t_dat (cost=0.00..129.90 rows=1 width=20) (实际时间=0.745..2.040 rows=48 loops=1) 过滤器: ((t_day = ANY ('1,2'::integer[])) AND (t_year = 2013) AND (t_month = 3) AND (t_week = 9)) -> Seq Scan on t_purs (cost=0.00..12087.49 rows=9900 width=16) (实际时间=0.018..201.630 rows=14014 loops=48) 过滤器:(p_id = ANY ('4,15,18,19,20,29,31,35,46,56,72,78'::integer[])) 总运行时间:10212.470 毫秒【问题讨论】:
这些表中有多少条记录?索引完成了吗? t_purs 大约 600K 记录,t_dat 大约 9K。索引设置在 t_purs.id, t_dat.t_key 您需要向我们展示表和索引定义。 诊断慢查询需要完整的表和索引定义,而不仅仅是描述或解释。也许您的表格定义不佳。也许索引没有正确创建。也许您认为您在该列上没有索引。没有看到表和索引定义,我们无法分辨。 另外,完全没有必要将“列”和“表”名称放在引号中。 【参考方案1】:很难说你到底错过了什么,但如果我是你,我会确保存在以下索引:
CREATE INDEX t_dat_id_date_idx
ON t_dat (t_key, t_year, t_month, t_week, t_day);
对于t_purs
,创建此索引:
CREATE INDEX t_purs_created_p_id_idx
ON t_purs (created, p_id);
【讨论】:
嘿,我对索引进行了一些更改,现在它的速度就像光一样!谢谢!! 很高兴听到这个消息。不要低估复合索引的威力! :)【参考方案2】:考虑在表格中使用单列:
t_date date
而不是(t_year, t_month, t_week, t_day)
。数据类型date
占用4 个字节。这会稍微缩小你的表,使索引更小更快,并且更容易分组。
年、月、周和日可以使用@987654321轻松快速地从日期中提取@。您的查询可能看起来像这样并且会更快:
SELECT extract (year FROM t_date) AS c0
,extract (month FROM t_date) AS c1
,extract (week FROM t_date) AS c2
,extract (day FROM t_date) AS c3
,p.p_id AS c4
,sum(p.days) AS m0
,sum(p.timecreated) AS m1
FROM t_dat d
JOIN t_purs p ON p.created = d.t_key
WHERE d.t_date IN ('2013-03-01'::date, '2013-03-02'::date)
AND p.p_id IN (4,15,18,19,20,29,31,35,46,56,72,78)
GROUP BY d.t_date, p.p_id;
对于性能来说更重要的是索引,那么它就是:
CREATE INDEX t_dat_date_idx ON t_dat (t_key, t_date);
或者,取决于数据分布:
CREATE INDEX t_dat_date_idx ON t_dat (t_date, t_key);
The sequence of column matters.你甚至可以同时创建。
【讨论】:
以上是关于提高 PostgreSQL 查询性能的主要内容,如果未能解决你的问题,请参考以下文章