比较日期查询的性能

Posted 2023-04-15

技术标签:

【中文标题】比较日期查询的性能【英文标题】：Comparing performance of query for year in date 【发布时间】：2017-07-26 21:26:15 【问题描述】：

以下三个查询在性能方面的比较如何？我正在尝试获取 year=2017 的所有记录：

使用EXTRACT:

SELECT count(*), completed_by_id FROM table 
WHERE EXTRACT(YEAR FROM completed_on)=2017 
GROUP BY completed_by_id
# Took 11.8s

使用YEAR：

SELECT count(*), completed_by_id FROM table 
WHERE YEAR(completed_on)=2017 
GROUP BY completed_by_id
# Took 5.15s

使用LIKE 'YEAR%'

SELECT count(*), completed_by_id FROM table 
WHERE completed_on LIKE '2017%' 
GROUP BY completed_by_id
# Took 6.61s

注意：在我自己的测试中，我发现YEAR() 是最快的，LIKE 是第二快的，EXTRACT() 是最慢的。

表中有大约 5M 行，completed_on 是已被索引的DATETIME 字段。

【问题讨论】：

您在completed_on 字段上确实有索引，对吧？ @PM77-1 是的，有一个索引。我们在谈论多少条记录？ @PM77-1 ~ 500 万 completed_on 是什么列类型？ 【参考方案1】：

您尚未描述您的表或索引，因此所有关于查询性能的建议都是猜测。

如果您的completed_on 列是DATETIME、DATE 或TIMESTAMP 类型并且它已被索引，则此查询将大大优于您显示的所有查询，并保持随着表的增长，它的性能。

SELECT count(*), completed_by_id
  FROM table 
 WHERE completed_on >= '2017-01-01'
   AND completed_on <  '2017-01-01' + INTERVAL 1 YEAR
 GROUP BY completed_by_id

为什么？它可以对索引进行范围扫描，而不是对每一行的值调用nonsargable 函数。

注意在日期范围的开头使用>=，在结尾使用<。我们希望包括从 2017 年元旦的第一刻到 但不包括 2018 年元旦的第一刻的所有行。BETWEEN 不能这样做，因为它使用 @ 987654330@ 而不是 < 在其范围的末尾。

如果有索引，BETWEEN 和我展示的语法都使用范围扫描，并且执行大致相同。

为获得加速此查询的最佳结果，请在 (completed_on, completed_by_id) 上使用复合索引。

【讨论】：

BETWEEN 会完全一样吗？不，BETWEEN 产生不正确的结果。查看我的编辑。我的意思是正确使用 BETWEEN - 12 月 31 日为最大值。 @O.Jones 上述查询比使用YEAR() 执行得更好。它提供了大约 2% 的加速。如果该列是 DATE 值，您的建议将起作用。但如果列是TIMESTAMP 或DATETIME，则需要BETWEEN '2017-01-01' AND 2017-12-31 23:59`。如果时间具有亚秒级分辨率，即使这样也不正确。【参考方案2】：

如果您将 completed_on 存储为 DATE 或 DATETIME，您可以使用：

SELECT count(*) as cnt, LEFT(completed_on, 4) AS year
FROM table 
GROUP BY year
HAVING year=2017

【讨论】：

以上是关于比较日期查询的性能的主要内容，如果未能解决你的问题，请参考以下文章