使用 match_recognize 填充“缺失”值

Posted 2023-03-31

技术标签:

【中文标题】使用 match_recognize 填充“缺失”值【英文标题】：fill in "missing" values using match_recognize 【发布时间】：2015-12-09 09:38:32 【问题描述】：

A question here, on SO，要求解决一个相当常见的用例，即用“先前”中的非“缺失”值（基于定义的排序标准）填充“缺失”（基于定义的缺失标准）值行。

我通常处理这个问题的方法是

将“缺失”值重新映射 (decode/case) 为 NULL，对非“缺失”值使用last_value() 分析函数，并使用ignore nulls 和所有前面行的窗口，直到当前行以定义的顺序排列。

即，给定一个（取自原始帖子）输入行集my_table of ...

ORD  COL1  COL2  COL3  COL4
---  ----  ----  ----  ----
  1     A     0     1     5
  2     B     0     4     0
  3     C     2     0     0
  4     D     0     0     0
  5     E     3     5     0
  6     F     0     3     0
  7     G     0     3     1
  8     A     0     1     5
  9     E     3     5     0

...，order by ord asc 的排序，值“缺失”的标准是该值是负数或零（case when colX <= 0 then null else colX end 用于 2,3,4 的 X），查询……

select X.ord, X.col1,
    nvl(last_value(case when col2 > 0 then col2 end) ignore nulls over (order by ord), col2) as col2,
    nvl(last_value(case when col3 > 0 then col3 end) ignore nulls over (order by ord), col3) as col3,
    nvl(last_value(case when col4 > 0 then col4 end) ignore nulls over (order by ord), col4) as col4
from my_table X
order by ord;

... 会产生...的预期结果

ORD  COL1  COL2  COL3  COL4
---  ----  ----  ----  ----
  1     A     0     1     5
  2     B     0     4     5
  3     C     2     4     5
  4     D     2     4     5
  5     E     3     5     5
  6     F     3     3     5
  7     G     3     3     1
  8     A     3     1     5
  9     E     3     5     5

Lukas Eder 提出了一个带有model 子句的漂亮替代解决方案，在他的案例中model 操作有效inductively（基于我在他的查询执行中对SQL MODEL ORDERED 操作的观察） plan)，按所需顺序从第一行到最后一行，导致n 行在处理n+1 行时已经填充了“缺失”值。

Lukas 的一个 cmets 还提到了使用 Oracle 12c 的match_recognize 子句的可能性。我试图让这个（对我来说是全新的）条款被理解并且工作失败了。所以，...

赏金优惠！ :-)

我为解决上述问题的最优雅的基于match_recognize 的解决方案提供小额奖励。禁止使用pivot、unpivot、自连接、model、分析、聚合、PL/SQL 等对数据进行所有预处理（视图、内联视图、with 子句……）。只允许使用标准标量 SQL 函数。我对在基础 my_table 数据源上工作的纯 match_recognize 感兴趣。

【问题讨论】：

【参考方案1】：

模式中的条件确实会按整行进行评估，因此必须为每个可能性定义一个条件。然后，您可以使用 SUBSET 子句将适当的条件组合在一起。

WITH t(col0, col1, col2, col3, col4) AS (
  SELECT 1, 'A', 0, 1, 5 FROM DUAL UNION ALL
  SELECT 2, 'B', 0, 4, 0 FROM DUAL UNION ALL
  SELECT 3, 'C', 2, 0, 0 FROM DUAL UNION ALL
  SELECT 4, 'D', 0, 0, 0 FROM DUAL UNION ALL
  SELECT 5, 'E', 3, 5, 0 FROM DUAL UNION ALL
  SELECT 6, 'F', 0, 3, 0 FROM DUAL UNION ALL
  SELECT 7, 'G', 0, 3, 1 FROM DUAL UNION ALL
  SELECT 8, 'A', 0, 1, 5 FROM DUAL UNION ALL
  SELECT 9, 'E', 3, 5, 0 FROM DUAL
)
SELECT col0, col1, C02, C03, C04
FROM t
match_recognize(
  order by col0
  measures nvl(C02.col2,0) C02,
           nvl(C03.col3,0) C03,
           nvl(C04.col4,0) C04
  all rows per match
  pattern ((C234|C23|C24|C34|C2|C3|C4|X)+)
  subset C02 = (C234, C23, C24, C2),
         C03 = (C234, C23, C34, C3),
         C04 = (C234, C24, C34, C4)
  define C234 as col2>0 and col3>0 and col4>0,
         C23 as col2>0 and col3>0,
         C24 as col2>0 and col4>0,
         C34 as col3>0 and col4>0,
         C2 as col2>0, C3 as col3>0, C4 as col4>0
);

【讨论】：

【参考方案2】：

我认为您无法使用纯 MATCH_RECOGNIZE 子句来完成结果。仅仅是因为值 col2、col3、col4 彼此独立，但模式是按整行评估的。因此，如果可以匹配多个符号（在您的情况下，多列具有零或非零值）只有第一个作为分类器匹配，而其他符号将被忽略。

对于单列有简单的解决方案：

SELECT
    ORD, COL1, COL2R COL2
FROM
    my_table
MATCH_RECOGNIZE (
     ORDER BY ORD
     MEASURES
        NVL(LAST(V2.COL2), 0) AS COL2R
     ALL ROWS PER MATCH
     PATTERN ((V20*V2+V20*)+)
     DEFINE
        V2  AS  V2.COL2 > 0,
        V20 AS V20.COL2 = 0
     )

无论如何，分析函数绝对是您的最佳选择。 MODEL 和 MATCH_RECOGNIZE 子句都旨在解决分析函数无济于事的不同问题，尽管优化得很好，但两者都比分析函数更重要。

【讨论】：

我知道这两个更重量级。不过没关系。我对match_recognize 功能的“炫耀”感兴趣；对被告知我应该使用什么以及针对特定问题不应该使用什么不感兴趣。 :-) 我只是想很好地了解我的选择。考虑我的问题是学术性的。无论如何，到目前为止，您的回答与我对 match_recognize... 的理解一致，即该模式会按整行进行评估。这就是我所说的“严重失败”的部分。不过，那里有比我更有经验的人，所以...

以上是关于使用 match_recognize 填充“缺失”值的主要内容，如果未能解决你的问题，请参考以下文章

R语言-均值填充缺失值

使用 Pandas 填充缺失的数据

逃脱的正确方法是啥？使用 Oracle 12c MATCH_RECOGNIZE 时 JDBC PreparedStatement 中的字符？

熊猫：使用最后可用的填充缺失值

R语言使用caret包的preProcess函数进行数据填充使用K近邻KNN算法进行缺失值填充

机器学习数据清洗之缺失值处理缺失的原因缺失值删除缺失值填充KNN填充