列中的重复值

Posted

技术标签:

【中文标题】列中的重复值【英文标题】:Repeating values in a column 【发布时间】:2017-02-27 11:12:44 【问题描述】:

我在一列中有以下值,用逗号分隔。

BHOP23,BHOP23,BHOP24

我想知道值是否在列中重复。

我该怎么做?

【问题讨论】:

永远不要将数据存储为逗号分隔的项目。只会给你带来很多麻烦。 @jarlh 这是一个将数据加载到主表的临时表。 您是否需要检查字符串是否包含重复值或获取仅包含非重复值的不同字符串?如果是这样,您是否需要保留初始字符串的顺序? @Aleksej 我需要得到一个没有重复或不重复字符串的字符串,不需要保留顺序。谢谢 【参考方案1】:

Oracle 设置

CREATE TABLE your_table ( your_list_column ) AS
  SELECT 'a,a,b,c,d' FROM DUAL UNION ALL -- duplicates both at head
  SELECT 'a,b,a,c,d' FROM DUAL UNION ALL -- duplicates at head and middle
  SELECT 'a,b,c,d,a' FROM DUAL UNION ALL -- duplicates at head and tail
  SELECT 'a,b,b,c,d' FROM DUAL UNION ALL -- duplicates at middle and next item
  SELECT 'a,b,c,b,d' FROM DUAL UNION ALL -- duplicates at middle and middle
  SELECT 'a,b,c,d,b' FROM DUAL UNION ALL -- duplicates at middle and tail
  SELECT 'a,b,c,d,d' FROM DUAL UNION ALL -- duplicates both at tail
  SELECT 'a,b,a,c,b' FROM DUAL UNION ALL -- two pairs of duplicates
  SELECT 'a,b,c,d,e' FROM DUAL;          -- no duplicates

要获取具有重复值的列表,您可以在正则表达式中使用反向引用:

SELECT *
FROM   your_table
WHERE  REGEXP_LIKE( ',' || your_list_column || ',', ',([^,]+),(.+,)?\1,' )

输出

YOUR_LIST_COLUMN
----------------
a,a,b,c,d
a,b,a,c,d
a,b,c,d,a
a,b,b,c,d
a,b,c,b,d
a,b,c,d,b
a,b,c,d,d
a,b,a,c,b

要获取第一个重复值,您可以提取上述正则表达式的第一个子组:

SELECT your_list_column,
       REGEXP_SUBSTR( ',' || your_list_column || ',', ',([^,]+),(.+,)?\1,', 1, 1, NULL, 1 )
         AS duplicate_value
FROM   your_table
WHERE  REGEXP_LIKE( ',' || your_list_column || ',', ',([^,]+),(.+,)?\1,' )

输出

YOUR_LIST_COLUMN DUPLICATE VALUE
---------------- ---------------
a,a,b,c,d        a
a,b,a,c,d        a
a,b,c,d,a        a
a,b,b,c,d        b
a,b,c,b,d        b
a,b,c,d,b        b
a,b,c,d,d        d
a,b,a,c,b        a

然后,要获取唯一值,请使用split_string() function as defined here(但使用用户定义的类型而不是预定义的VARRAY):

CREATE OR REPLACE TYPE stringlist IS TABLE OF VARCHAR2(4000);
/

CREATE OR REPLACE FUNCTION split_String(
  i_str    IN  VARCHAR2,
  i_delim  IN  VARCHAR2 DEFAULT ','
) RETURN stringlist DETERMINISTIC
AS
  p_result       stringlist := stringlist();
  p_start        NUMBER(5) := 1;
  p_end          NUMBER(5);
  c_len CONSTANT NUMBER(5) := LENGTH( i_str );
  c_ld  CONSTANT NUMBER(5) := LENGTH( i_delim );
BEGIN
  IF c_len > 0 THEN
    p_end := INSTR( i_str, i_delim, p_start );
    WHILE p_end > 0 LOOP
      p_result.EXTEND;
      p_result( p_result.COUNT ) := SUBSTR( i_str, p_start, p_end - p_start );
      p_start := p_end + c_ld;
      p_end := INSTR( i_str, i_delim, p_start );
    END LOOP;
    IF p_start <= c_len + 1 THEN
      p_result.EXTEND;
      p_result( p_result.COUNT ) := SUBSTR( i_str, p_start, c_len - p_start + 1 );
    END IF;
  END IF;
  RETURN p_result;
END;
/

那么你可以结合SET()集合函数使用:

SELECT t.*,
       (
         SELECT LISTAGG( COLUMN_VALUE, ',' ) WITHIN GROUP ( ORDER BY ROWNUM )
         FROM   TABLE( SET( split_string( t.your_list_column ) ) )
       ) AS unique_list
FROM   your_table t

输出

YOUR_LIST_COLUMN UNIQUE_LIST
---------------- ---------------
a,a,b,c,d        a,b,c,d
a,b,a,c,d        a,b,c,d
a,b,c,d,a        a,b,c,d
a,b,b,c,d        a,b,c,d
a,b,c,b,d        a,b,c,d
a,b,c,d,b        a,b,c,d
a,b,c,d,d        a,b,c,d
a,b,a,c,b        a,b,c
a,b,c,d,e        a,b,c,d,e

【讨论】:

谢谢,如何从列中获取唯一值? @user75ponic 什么栏目?您是指列表中的唯一值吗? @user75ponic 已更新 - 更好的解决方案是不要将列表存储为字符串并将列表项放入单独的表中。 感谢更新,但我仍然可以看到重复值。 @user75ponic 请用minimal reproducible example 更新您的问题 - 我没有您的数据,看不到您的查询,也不知道为什么您仍然看到重复的查询,因为我发布的查询适用于我的示例数据。【参考方案2】:

仅依赖简单字符串函数(SUBSTRINSTRLENGTH)从字符串列表中删除重复项的 PL/SQL 函数:

SQL Fiddle

Oracle 11g R2 架构设置

CREATE TABLE your_table ( your_list_column ) AS
  SELECT 'a,a,b,c,d' FROM DUAL UNION ALL -- duplicates both at head
  SELECT 'a,b,a,c,d' FROM DUAL UNION ALL -- duplicates at head and middle
  SELECT 'a,b,c,d,a' FROM DUAL UNION ALL -- duplicates at head and tail
  SELECT 'a,b,b,c,d' FROM DUAL UNION ALL -- duplicates at middle and next item
  SELECT 'a,b,c,b,d' FROM DUAL UNION ALL -- duplicates at middle and middle
  SELECT 'a,b,c,d,b' FROM DUAL UNION ALL -- duplicates at middle and tail
  SELECT 'a,b,c,d,d' FROM DUAL UNION ALL -- duplicates both at tail
  SELECT 'a,b,a,c,b' FROM DUAL UNION ALL -- two pairs of duplicates
  SELECT 'a,b,c,d,e' FROM DUAL           -- no duplicates
/

CREATE OR REPLACE FUNCTION remove_Duplicates_From_List(
  i_str    IN  VARCHAR2,
  i_delim  IN  VARCHAR2 DEFAULT ','
) RETURN VARCHAR2 DETERMINISTIC
AS
  p_result       VARCHAR2(4000) := i_delim;
  p_temp         VARCHAR2(4000);
  p_start        NUMBER(5) := 1;
  p_end          NUMBER(5);
  c_len CONSTANT NUMBER(5) := LENGTH( i_str );
  c_ld  CONSTANT NUMBER(5) := LENGTH( i_delim );
BEGIN
  IF c_len > 0 THEN
    p_end := INSTR( i_str, i_delim, p_start );
    WHILE p_end > 0 LOOP
      p_temp := SUBSTR( i_str, p_start, p_end + c_ld - p_start );
      IF INSTR( p_result, i_delim || p_temp ) = 0 THEN
        p_result := p_result || p_temp;
      END IF;
      p_start := p_end + c_ld;
      p_end := INSTR( i_str, i_delim, p_start );
    END LOOP;
    IF p_start <= c_len + 1 THEN
      p_temp := SUBSTR( i_str, p_start, c_len - p_start + 1 ) || i_delim;
      IF INSTR( p_result, i_delim || p_temp ) = 0 THEN
        p_result := p_result || p_temp;
      END IF;
    END IF;
  END IF;
  RETURN SUBSTR( p_result, c_ld + 1, LENGTH( p_result ) - 2 * c_ld );
END;
/

查询 1

SELECT your_list_column,
       remove_Duplicates_From_List( your_list_column ) AS uniq
FROM   your_table

Results

| YOUR_LIST_COLUMN |      UNIQ |
|------------------|-----------|
|        a,a,b,c,d |   a,b,c,d |
|        a,b,a,c,d |   a,b,c,d |
|        a,b,c,d,a |   a,b,c,d |
|        a,b,b,c,d |   a,b,c,d |
|        a,b,c,b,d |   a,b,c,d |
|        a,b,c,d,b |   a,b,c,d |
|        a,b,c,d,d |   a,b,c,d |
|        a,b,a,c,b |     a,b,c |
|        a,b,c,d,e | a,b,c,d,e |

【讨论】:

以上是关于列中的重复值的主要内容,如果未能解决你的问题,请参考以下文章

我想在列中的值中添加“%”单位

如何在 python 的另一列中的字符串值中从数据框中的一列中搜索字符串?

从数据框列中的字符串值中删除字符

从数据库列和 C# 中的 textBox 值中扣除值,扣除后的值必须存储在新列中

如何从SQL中的列值中提取特定部分(Redshift平台)

字典值中的排序列表[重复]