如何通过 Oracle 中的 regexp_replace 从逗号分隔列表中删除重复项？

Posted 2023-03-28

技术标签:

【中文标题】如何通过 Oracle 中的 regexp_replace 从逗号分隔列表中删除重复项？【英文标题】：How to remove duplicates from comma separated list by regexp_replace in Oracle? 【发布时间】：2016-10-26 07:38:39 【问题描述】：

我有

 POW,POW,POWPRO,PRO,PRO,PROUTL,TNEUTL,TNEUTL,UTL,UTLTNE,UTL,UTLTNE

我想要

POW,POWPRO,PRO,PROUTL,TNEUTL,UTL,UTLTNE

我试过了

select regexp_replace('POW,POW,POWPRO,PRO,PRO,PROUTL,TNEUTL,TNEUTL,UTL,UTLTNE,UTL,UTLTNE','([^,]+)(,\1)+','\1') from dual

我得到了输出

 POWPROUTL,TNEUTL,UTLTNE,UTLTNE

但我希望输出是

POW,POWPRO,PRO,PROUTL,TNEUTL,UTL,UTLTNE

请帮忙。

【问题讨论】：

OP 上一个问题的可能重复：Distinct of CSV values using REGEXP_REPLACE in oracle 这将匹配所有重复的 (?<=,|^)([^,]+),(?=(?:[^,]+,)*\1(?:,|$)) 但 Oracle 不支持正则表达式中的前瞻/后视。 【参考方案1】：

两种只使用 SQL 的解决方案和第三种使用小型/简单 PL/SQL 函数的解决方案，这使得最终的 SQL 查询非常短。

Oracle 设置：

CREATE TABLE data ( value ) AS
SELECT 'POW,POW,POWPRO,PRO,PRO,PROUTL,TNEUTL,TNEUTL,UTL,UTLTNE,UTL,UTLTNE' FROM DUAL;

CREATE TYPE stringlist AS TABLE OF VARCHAR2(4000);
/

查询 1：

SELECT LISTAGG( t.COLUMN_VALUE, ',' ) WITHIN GROUP ( ORDER BY t.COLUMN_VALUE ) AS list
FROM   data d,
       TABLE(
         SET(
           CAST(
             MULTISET(
              SELECT REGEXP_SUBSTR( d.value, '[^,]+', 1, LEVEL )
              FROM   DUAL
              CONNECT BY LEVEL <= REGEXP_COUNT( d.value, '[^,]+' )
             ) AS stringlist
           )
         )
       ) t
GROUP BY d.value;

输出：

LIST
---------------------------------------
POW,POWPRO,PRO,PROUTL,TNEUTL,UTL,UTLTNE

查询 2：

SELECT ( SELECT LISTAGG(  COLUMN_VALUE, ',' ) WITHIN GROUP ( ORDER BY ROWNUM )
         FROM TABLE( d.uniques ) ) AS list
FROM   (
  SELECT ( SELECT CAST(
                    COLLECT(
                      DISTINCT
                      REGEXP_SUBSTR( d.value, '[^,]+', 1, LEVEL )
                    )
                    AS stringlist
                  )
            FROM  DUAL
            CONNECT BY LEVEL <= REGEXP_COUNT( d.value, '[^,]+' )
         ) uniques
  FROM   data d
) d;

输出：

LIST
---------------------------------------
POW,POWPRO,PRO,PROUTL,TNEUTL,UTL,UTLTNE

Oracle 设置：

一个小辅助函数：

CREATE FUNCTION split_String(
  i_str    IN  VARCHAR2,
  i_delim  IN  VARCHAR2 DEFAULT ','
) RETURN stringlist DETERMINISTIC
AS
  p_result       stringlist := stringlist();
  p_start        NUMBER(5) := 1;
  p_end          NUMBER(5);
  c_len CONSTANT NUMBER(5) := LENGTH( i_str );
  c_ld  CONSTANT NUMBER(5) := LENGTH( i_delim );
BEGIN
  IF c_len > 0 THEN
    p_end := INSTR( i_str, i_delim, p_start );
    WHILE p_end > 0 LOOP
      p_result.EXTEND;
      p_result( p_result.COUNT ) := SUBSTR( i_str, p_start, p_end - p_start );
      p_start := p_end + c_ld;
      p_end := INSTR( i_str, i_delim, p_start );
    END LOOP;
    IF p_start <= c_len + 1 THEN
      p_result.EXTEND;
      p_result( p_result.COUNT ) := SUBSTR( i_str, p_start, c_len - p_start + 1 );
    END IF;
  END IF;
  RETURN p_result;
END;
/

查询 3：

SELECT ( SELECT LISTAGG(  COLUMN_VALUE, ',' ) WITHIN GROUP ( ORDER BY ROWNUM )
         FROM TABLE( SET( split_String( d.value ) ) ) ) AS list
FROM   data d;

或者（如果你只想传递一个值）：

SELECT LISTAGG(  COLUMN_VALUE, ',' ) WITHIN GROUP ( ORDER BY ROWNUM ) AS list
FROM   TABLE( SET( split_String(
          'POW,POW,POWPRO,PRO,PRO,PROUTL,TNEUTL,TNEUTL,UTL,UTLTNE,UTL,UTLTNE'
       ) ) );

输出：

LIST
---------------------------------------
POW,POWPRO,PRO,PROUTL,TNEUTL,UTL,UTLTNE

【讨论】：

如果您能够创建表格并插入值，那么任何人都可以达到要求，但是我认为您应该假设在不创建表格的情况下回答。 @prashantthakre 如果您想要一个不创建表格的版本，请参阅edit #4 - 表格的存在（或不存在）实际上对解决方案没有影响。【参考方案2】：

下面提供的解决方案使用直接 SQL（无 PL/SQL）。它适用于任何可能的输入字符串，并在适当的位置删除重复项 - 它保持输入标记的顺序，无论该顺序是什么。它还在正确处理空输入的同时删除连续的逗号（它从输入字符串中“删除空值”）。请注意仅由逗号组成的输入字符串的输出，以及分别由两个空格和一个空格组成的“标记”的正确处理。

查询运行相对较慢；如果性能是一个问题，可以将其重写为递归查询，使用“传统”substr 和 instr，它们比正则表达式快很多。

with inputs (input_string) as (
       select 'POW,POW,POWPRO,PRO,PRO,PROUTL,TNEUTL,TNEUTL,UTL,UTLTNE,UTL,UTLTNE' from dual
       union all
       select null from dual
       union all
       select 'ab,ab,st,ab,st,  , ,  ,x,,,r' from dual
       union all
       select ',,,' from dual
     ),
     tokens (input_string, rk, token) as (
       select     input_string, level, 
                  regexp_substr(input_string, '([^,]+)', 1, level, null, 1)
       from       inputs 
       connect by level <= 1 + regexp_count(input_string, ',')
     ),
     distinct_tokens (input_string, rk, token) as (
       select     input_string, min(rk) as rk, token
       from       tokens
       group by   input_string, token
     )
select   input_string, listagg(token, ',') within group (order by rk) output_string
from     distinct_tokens
group by input_string
;

我创建的输入结果：

INPUT_STRING                                                       OUTPUT_STRING
------------------------------------------------------------------ ----------------------------------------
,,,                                                                (null)
POW,POW,POWPRO,PRO,PRO,PROUTL,TNEUTL,TNEUTL,UTL,UTLTNE,UTL,UTLTNE  POW,POWPRO,PRO,PROUTL,TNEUTL,UTL,UTLTNE
ab,ab,st,ab,st,  , ,  ,x,,,r                                       ab,st,  , ,x,r
(null)                                                             (null)


4 rows selected.

【讨论】：

以上是关于如何通过 Oracle 中的 regexp_replace 从逗号分隔列表中删除重复项？的主要内容，如果未能解决你的问题，请参考以下文章