在列中查找重复条目 [重复]
Posted
技术标签:
【中文标题】在列中查找重复条目 [重复]【英文标题】:Find duplicate entries in a column [duplicate] 【发布时间】:2011-05-30 04:13:26 【问题描述】:我正在编写此查询以在 table1 中查找重复的 CTN 记录。所以我的想法是,如果 CTN_NO 出现超过两次或更高,我希望它显示在顶部的 SELECT * 语句输出中。
我尝试了以下子查询逻辑,但我需要拉动
SELECT *
table1
WHERE S_IND='Y'
and CTN_NO = (select CTN_NO
from table1
where S_IND='Y'
and count(CTN_NO) < 2);
order by 2
【问题讨论】:
“超过两倍或更多”?当然,重复记录是那些出现超过一次的记录。 相关:Finding duplicates on one column using select where in SQL Server 2008 【参考方案1】:使用:
SELECT t.ctn_no
FROM YOUR_TABLE t
GROUP BY t.ctn_no
HAVING COUNT(t.ctn_no) > 1
...将向您显示在您的表中有重复的 ctn_no
值。向 WHERE 添加条件将允许您进一步调整有哪些重复项:
SELECT t.ctn_no
FROM YOUR_TABLE t
WHERE t.s_ind = 'Y'
GROUP BY t.ctn_no
HAVING COUNT(t.ctn_no) > 1
如果您想查看与重复项关联的其他列值,您需要使用自联接:
SELECT x.*
FROM YOUR_TABLE x
JOIN (SELECT t.ctn_no
FROM YOUR_TABLE t
GROUP BY t.ctn_no
HAVING COUNT(t.ctn_no) > 1) y ON y.ctn_no = x.ctn_no
【讨论】:
添加自连接是一个非常有用的补充。 @OMGponies 你能解释一下加入的作用吗? 如果没有自连接,您将看到 ctn_no 列及其计数。通过自联接,您还将看到 YOUR_TABLE 中的所有其他列。【参考方案2】:试试这个查询。它使用分析函数 SUM:
SELECT * FROM
(
SELECT SUM(1) OVER(PARTITION BY ctn_no) cnt, A.*
FROM table1 a
WHERE s_ind ='Y'
)
WHERE cnt > 2
如果 ctn_no 重复超过 2 次,我不确定您为什么将记录识别为重复记录。对我来说,它不止一次重复它是重复的。在这种情况下,将查询的 las 部分更改为 WHERE cnt > 1
【讨论】:
以上是关于在列中查找重复条目 [重复]的主要内容,如果未能解决你的问题,请参考以下文章
Python Pandas Regex:在列中搜索带有通配符的字符串并返回匹配项[重复]