如何访问自定义 SQL 标量函数中的前几行?

Posted

技术标签:

【中文标题】如何访问自定义 SQL 标量函数中的前几行?【英文标题】:How to access previous rows in custom SQL scalar function? 【发布时间】:2019-10-04 15:23:55 【问题描述】:

我想编写自己的 SQL 标量函数,该函数根据第二列计算可变行数上单列数据点之间的平均值。我设想这个函数看起来像WINDOWMEAN(data, mileage, 100)。这将计算所有datamileage 与当前行100 英里范围内的行的平均值。

例子:

| data | mileage | 
|  10  |  1000   |
|  15  |  1009   |
|  20  |  1056   |
|  16  |  1098   |
|  13  |  1130   |
|  14  |  1200   |

对于像SELECT WINDOWMEAN(data, mileage, 100) AS a FROM t 这样的查询,我希望:

| data | mileage | a    |
|  10  |  1000   | 10   |
|  15  |  1009   | 12.5 |
|  20  |  1056   | 15   |
|  16  |  1098   | 15.25|
|  13  |  1130   | 16.33|
|  14  |  1200   | 13.5 |

a 是针对每一行计算的,作为当前行之前的 mileage 100 英里范围内所有行的平均值。

我遇到困难的地方是如何访问自定义 SQL 函数中的前几行。我不确定我想要完成的工作是否可行,因为我还没有找到以这种方式访问​​其他行的文档。

无论是否特定于此解决方案,是否有任何方法可以访问自定义 SQL 标量函数中的先前行?

(我可以假设行是按里程排序的)

【问题讨论】:

你不能用标量函数做到这一点。不过,您可以使用带有适当范围框架的 avg() 窗口函数来做您想做的事情。 @Shawn 我尝试使用窗口函数,但不知道如何使用可变窗口大小(如此处的示例)。根据 SQLite.org,它看起来不像窗口可以改变大小。 【参考方案1】:

您可以使用具有适当RANGE 框架定义的窗口函数将窗口限制在当前窗口 100 英里范围内的行中:

SELECT data, mileage
     , avg(data) OVER (ORDER BY mileage RANGE BETWEEN 100 PRECEDING AND CURRENT ROW) AS a
FROM t
ORDER BY mileage;
data        mileage     a
----------  ----------  ----------
10          1000        10.0
15          1009        12.5
20          1056        15.0
16          1098        15.25
13          1130        16.3333333
14          1200        13.5

注意事项:

此查询需要 Sqlite 3.28 或更高版本,因为该版本对窗口函数进行了一些重大改进,以允许像这样的数字范围。

为获得最佳结果,请在 t(mileage) 上创建索引或在 t(mileage, data) 上创建覆盖索引。


使用相关子查询的非窗口函数版本(也适用于该索引):

SELECT data, mileage
     , (SELECT avg(t2.data) FROM t AS t2
        WHERE t2.mileage BETWEEN t1.mileage - 100 AND t1.mileage) AS a
FROM t AS t1
ORDER BY mileage;

【讨论】:

我尝试运行此查询,但收到RANGE must use only UNBOUNDED or CURRENT ROW 的错误。另外,这不是查看前面的 100 行吗? @mdmnd18 那么您使用的 sqlite 版本不够新。它需要 3.28 或更高版本。不,不是 100 行。 RANGE 与框架规范中的 ROWS 不同。详情请见sqlite.org/windowfunctions.html#frame_specifications。【参考方案2】:

在 SQL Server 中,可以使用窗口函数 ROW_NUMBER sqlite ROW_NUMBER 存在此功能,但我不确定它是否有效。

DECLARE @t TABLE (data int ,mileage int)

--SOME DATA
INSERT INTO @t
VALUES (10,1000),
        (15,1009),
        (20,1056)

--Replace @t by the real table name

;WITH TableWithRow(data, mileage, r)
AS
(
    SELECT data, mileage, ROW_NUMBER() OVER (ORDER BY data) 
    FROM @t
)
SELECT c.data, c.mileage, p.data previousData, p.mileage previousmileage
FROM TableWithRow c
LEFT OUTER JOIN TableWithRow p on c.r-1 = p.r

---WITHOUT CTE (bad performance)
SELECT c.data, c.mileage, p.data previousData, p.mileage previousmileage
FROM (
    SELECT data, mileage, ROW_NUMBER() OVER (ORDER BY data) r
    FROM @t
) c
LEFT OUTER JOIN (
    SELECT data, mileage, ROW_NUMBER() OVER (ORDER BY data) r
    FROM @t
) p on c.r-1 = p.r

【讨论】:

以上是关于如何访问自定义 SQL 标量函数中的前几行?的主要内容,如果未能解决你的问题,请参考以下文章

SQL Server如何定位自定义标量函数被那个SQL调用次数最多浅析

Flink Table API & SQL 自定义 Scalar 标量函数

T-SQL编程 —— 用户自定义函数(标量函数)

SQL Server 自定义函数

SQL Server 自定义函数

SQL Server 自定义函数(Function)——参数默认值