不同的两列分组在另一列上

Posted 2023-03-31

技术标签:

【中文标题】不同的两列分组在另一列上【英文标题】：Distinct of two columns grouping on another column 【发布时间】：2016-09-08 14:32:00 【问题描述】：

我正在尝试计算 SQL Server 中另一列分组的两列重复值的数量。

以下是我正在处理的示例场景。

    DECLARE @mytable TABLE (CampName varchar(10),ID VARCHAR(10),ListName varchar(10))
    INSERT INTO @mytable
            ( CampName, ID, ListName )
    VALUES  ( 'A',   'X',   'Y' ), ( 'A',   'X',   'Y' ), 
            ( 'A',   'Y',   'Z' ), ( 'A',   'Y',   'Z' ),
            ( 'A',   'Y',   'Z' ), ( 'A',   'P',   'Q' ),
            ( 'B',   'X',   'Y' ), ( 'B',   'X',   'Y' ), 
            ( 'B',   'Y',   'Z' ), ( 'B',   'Y',   'Z' ),
            ( 'B',   'Y',   'Z' ), ( 'B',   'P',   'Q' ),
            ( 'B',   'R',   'S' ), ( 'B',   'R',   'S' )

这将产生下表。

 CampName   ID  ListName
-------------------------------------
      A     X     Y
      A     X     Y -- Duplicate Record
      A     Y     Z
      A     Y     Z -- Duplicate Record
      A     Y     Z -- Duplicate Record
      A     P     Q
      B     X     Y 
      B     X     Y -- Duplicate Record
      B     Y     Z
      B     Y     Z -- Duplicate Record
      B     Y     Z -- Duplicate Record
      B     P     Q
      B     R     S
      B     R     S -- Duplicate Record

我需要如下输出：

CampName   dupcount
-------------------
A            3
B            4

基本上，无论重复值是什么，我都需要计算出每个 CampName 的重复 (ID、ListName) 数量。

如果我能澄清这方面的其他内容，请告诉我。任何帮助将不胜感激。

【问题讨论】：

【参考方案1】：

您可以使用以下查询：

SELECT CampName, SUM(cnt) AS dupcount
FROM (
  SELECT CampName, COUNT(*) - 1 AS cnt
  FROM @mytable
  GROUP BY CampName, ID, ListName
  HAVING COUNT(*) > 1) AS t
GROUP BY CampName

内部查询使用HAVING 子句过滤掉非重复条目。它还计算每个ID, ListName 的重复记录数。外部查询只是对重复项的数量求和。

【讨论】：

最健壮（没有边缘情况失败）和高性能（不连接字段允许使用索引扫描而不是表扫描，如果存在适当的索引）都在这里回答...【参考方案2】：

我相信ID 和 ListName 组合的不同数量需要从每个CampName 组的总数中减去才能得到正确的结果。

SELECT t.CampName,
       COUNT(*) - COUNT(DISTINCT 'ColOne' + ID + 'ColTwo' + ListName) AS dupcount
FROM yourTable t
GROUP BY CampName

这个查询使用了一个技巧，即连接ID 和ListName 列，它们都是文本，以有效地形成一个伪组。这样做的需要是 DISTINCT 仅适用于单列，但您有两列需要考虑。

参考：Quora: In SQL, how to I count DISTINCT over multiple columns?

【讨论】：

串联是危险的； 'X' + 'XY' == 'XX' + 'Y' 加个分隔符也是不够的； 'X' + ',' + ',Y' == 'X,' + ',' + 'Y'。为了变得健壮，需要搜索和替换以“转义”任何使用过的分隔符。 @MatBailie 我们还可以为我们期望唯一的每一列附加一个标识符（例如，ColOne 用于第一列，ColTwo 用于第二列）。那么你的例子会变成ColOneX + ColTwoXY != ColOneXX + ColTwoY 确实这不太可能，但仍然不是 100% 稳健； 'ColOne' + '12' + 'ColTwo' + 'XXColTwoXX' == 'ColOne' + '12ColTwoXX' + 'ColTwo' + 'XX' @MatBailie 不，期望您的最后一个示例是不合理的。所以你是说ListName 可以有一个名为XXColTwoXX 的条目？真的吗？是的，这就是为什么在我的解决方案中，我更喜欢连接之间的运算符:)【参考方案3】：

这是获得所需结果的简单方法：

select t.campname, count(*) - count(distinct t.listname) as num_duplicates
from @mytable t
group by t.campname;

逻辑是count(*) 计算所有行。 count(distinct) 计算不同列表的数量。区别在于重复的数量。

编辑：

Giorgios 提出了一个很好的观点。但是，数据看起来像 id 和 name 包含相同的信息，因此似乎只需要一个。如果你必须同时使用这两种方法，许多数据库会让你这样做：

select t.campname, count(*) - count(distinct t.id, t.listname) as num_duplicates
from @mytable t
group by t.campname;

但不是 SQL Server。相反，将它们连接在一起：

select t.campname,
       count(*) - count(distinct concat(t.id, ':', t.listname)) as num_duplicates
from @mytable t
group by t.campname;

【讨论】：

仅当id 字段完全冗余时才有效。在示例数据中似乎是这种情况，但在number of duplicate (ID,ListName) for each CampName 的措辞中，它似乎不是多余的...... 我认为distinct 应该考虑两个字段，而不仅仅是listname。【参考方案4】：

这个问题有点含糊。

如果您认为所有 ID 和 ListName 组合始终相等，则以下查询适合您：

您可以通过在您的COUNT 中使用DISTINCT 来简单地做到这一点

SELECT CampName, COUNT(DISTINCT ListName) UniqueCount
FROM @mytable
GROUP BY CampName

如果您怀疑该组合可能并非始终相等，则需要考虑计算 ID 和 ListName 列的组合。

这假定连接运算符 | 不会出现在两列中的任何一列。

SELECT CampName, COUNT(DISTINCT ID+'|'+ListName) UniqueCount
FROM @mytable
GROUP BY CampName

如果您担心计算重复的行数

SELECT CampName, COUNT(*) - COUNT(DISTINCT ID+'|'+ListName) dupCount
FROM @mytable
GROUP BY CampName

我认为是另一种选择

;WITH Temp AS
(
    SELECT CampName, ID, ListName, COUNT(*) UniqueCount 
    FROM @mytable
    GROUP BY CampName, ID, ListName
)
SELECT CampName, COUNT(UniqueCount) count 
FROM Temp
GROUP BY CampName

【讨论】：

DISTINCT 不是函数。 IE。你可以做COUNT(DISTINCT ListName)。不，如果你愿意，你甚至可以使用COUNT(DISTINCT((((ListName)))))。我看不到这两个查询中的任何一个如何产生所需的结果。用户想要计算 duplicate ID, ListName 对。这些查询似乎产生了某种相反的结果。第一个答案假设 id 和 name 组合总是相等的，所以 DISTINCT 中的任何一个都应该工作；第二个假设相反，因此 id 和 name 的组合会生成唯一计数 @techspider - 如果连接的值可以包含 |...'X|' + '|' + 'Y' == 'X' + '|' + '|Y'【参考方案5】：

您也可以使用 CONCAT 检索相同的结果，它更可靠

SELECT CampName, 
    COUNT(ListName)-COUNT(DISTINCT CONCAT(id,ListName)) tot 
FROM #tmp 
GROUP BY CampName

【讨论】：

【参考方案6】：

试试这样，分析SELECT语句，WITH子句对逻辑不重要：

WITH input_data AS (
  SELECT 'X' AS x, 'Y' AS y FROM DUAL
  UNION ALL
  SELECT 'X' AS x, 'Y' AS y FROM DUAL
  UNION ALL
  SELECT 'X' AS x, 'A' AS y FROM DUAL
)
SELECT input_data.*, COUNT(*) OVER (PARTITION BY x, y) - 1 AS numer_duplicates
FROM input_data
;

【讨论】：

每个 CampName 需要一个独立的结果。当你处理这个问题时，你最终会得到 GiorgosBetsos 提供的嵌套聚合答案。 @MatBailie 是的，只是使用分析函数作为替代解决方案。我的意思是，这种替代解决方案并不能满足 OP 的要求。 OP 需要 Per CampName 的重复计数。 @MatBailie 我得到了那部分，只是不认为 OP 需要用勺子喂食并且可以自己弄清楚最后一小步，但也许我只是过于乐观了。

以上是关于不同的两列分组在另一列上的主要内容，如果未能解决你的问题，请参考以下文章