比较 SQL 表行,如果完全匹配、1 个差异、2 个差异等返回不同的答案

Posted

技术标签:

【中文标题】比较 SQL 表行,如果完全匹配、1 个差异、2 个差异等返回不同的答案【英文标题】:Compare SQL Table Rows, return different answers if exact match, 1 difference, 2 differences etc 【发布时间】:2015-09-11 13:04:59 【问题描述】:

我正在尝试找出处理大型数据集的最佳方法,并且看起来使用 Access/SQL 表可能是最好的方法(尽管甚至可以使用带有 VBA 的 Excel)。在四处搜索之后,没有一个完全匹配。

我有一些类似于下表的内容,并且想在一个结果中了解是否有任何行完全匹配。我还想知道除了 1 个差异或 2 个差异等之外匹配的行(这些可以被视为单独的查询)。

例如,在下面的示例中,输出将显示 A 和 B 在完全匹配下匹配,A 和 C 匹配一个差异(B 和 C 也是如此)。 D 与 B 和 C 有 1 个不匹配,但与 A 有 2 个不匹配。

然后再上一层,如果我想简单地说一下 D 行(如用户选择而不是只扫描上面的整个数据库)是否有任何匹配项,如何调整查询?

+------+--------+--------+--------+--------+--------+
| Item | Score1 | Score2 | Score3 | Score4 | Score5 |
+------+--------+--------+--------+--------+--------+
| A    |      1 |      1 |      2 |      1 |      1 |
| B    |      1 |      1 |      2 |      1 |      1 |
| C    |      1 |      1 |      1 |      1 |      1 |
| D    |      0 |      1 |      1 |      1 |      1 |
+------+--------+--------+--------+--------+--------+

非常感谢!

【问题讨论】:

如果您的列集很小,您可以使用=If(And(B2=C2,C2=D2,D2=E2,E2=F2),"Y","") 等轻松地将几列 Excel 公式组合在一起,以匹配所有匹配项、1 个匹配项、2 个匹配项...。​​您也可以使用用于在列中查找匹配项的 vlookup。 不幸的是,列行很大(00 到 000)。 这有点令人费解。我认为,如果您能提供理想输出的示例,这将对我们有所帮助。 【参考方案1】:

考虑下面的带有六个GROUP BY 子查询的MS Access 查询,它确实显示了哪些项目在所有列中匹配。但对于其他列的差异,查询提供了一种仪表板供用户决定匹配。

查询背后的概念是将所有分数连接成一个字符串(例如,11211、1111、01111),然后逐个字符检查(使用LeftMid()字符串函数)项目之间的字符数是多少大于一。此外,对于多次重复出现,我必须使用 @

SELECT t1.Item, 
      (t1.Score1 & t1.Score2 & t1.Score3 & t1.Score4 & t1.Score5) AS StringScores, 

(SELECT 'Yes'  
FROM Scores t2 
WHERE (t1.Score1 & t1.Score2 & t1.Score3 & t1.Score4 & t1.Score5)=        
      (t2.Score1 & t2.Score2 & t2.Score3 & t2.Score4 & t2.Score5) 
GROUP BY 'Yes', Cstr(t2.Score1 & t2.Score2 & t2.Score3 & t2.Score4 & t2.Score5)  
HAVING Count(*) > 1) AS [All Five Scores Match ?], 

(SELECT 'Yes @ ' & Left((t3.Score1 & t3.Score2 & t3.Score3 & t3.Score4 & t3.Score5), 1) 
FROM Scores t3 
WHERE Left((t1.Score1 & t1.Score2 & t1.Score3 & t1.Score4 & t1.Score5), 1)=        
      Left((t3.Score1 & t3.Score2 & t3.Score3 & t3.Score4 & t3.Score5), 1) 
GROUP BY 'Yes @ ' & Left((t3.Score1 & t3.Score2 & t3.Score3 & t3.Score4 & t3.Score5), 1)  
HAVING Count(*) > 1) AS [First Score Matches ?], 

(SELECT 'Yes @ ' & Mid((t4.Score1 & t4.Score2 & t4.Score3 & t4.Score4 & t4.Score5), 2, 1) 
FROM Scores t4 
WHERE Mid((t1.Score1 & t1.Score2 & t1.Score3 & t1.Score4 & t1.Score5), 2, 1)=        
      Mid((t4.Score1 & t4.Score2 & t4.Score3 & t4.Score4 & t4.Score5), 2, 1) 
GROUP BY 'Yes @ ' & Mid((t4.Score1 & t4.Score2 & t4.Score3 & t4.Score4 & t4.Score5), 2, 1)  
HAVING Count(*) > 1) AS [Second Score Matches ?], 

(SELECT 'Yes @ ' & Mid((t5.Score1 & t5.Score2 & t5.Score3 & t5.Score4 & t5.Score5), 3, 1) 
FROM Scores t5 
WHERE Mid((t1.Score1 & t1.Score2 & t1.Score3 & t1.Score4 & t1.Score5), 3, 1)=        
      Mid((t5.Score1 & t5.Score2 & t5.Score3 & t5.Score4 & t5.Score5), 3, 1) 
GROUP BY 'Yes @ ' & Mid((t5.Score1 & t5.Score2 & t5.Score3 & t5.Score4 & t5.Score5), 3, 1)  
HAVING Count(*) > 1) AS [Third Score Matches ?], 

(SELECT 'Yes @ ' & Mid((t6.Score1 & t6.Score2 & t6.Score3 & t6.Score4 & t6.Score5), 4, 1) 
FROM Scores t6 
WHERE Mid((t1.Score1 & t1.Score2 & t1.Score3 & t1.Score4 & t1.Score5), 4, 1)=       
      Mid((t6.Score1 & t6.Score2 & t6.Score3 & t6.Score4 & t6.Score5), 4, 1) 
GROUP BY 'Yes @ ' & Mid((t6.Score1 & t6.Score2 & t6.Score3 & t6.Score4 & t6.Score5), 4, 1)  
HAVING Count(*) > 1) AS [Fourth Score Matches ?], 

(SELECT 'Yes @ ' & Mid((t7.Score1 & t7.Score2 & t7.Score3 & t7.Score4 & t7.Score5), 5, 1) 
FROM Scores t7 
WHERE Mid((t1.Score1 & t1.Score2 & t1.Score3 & t1.Score4 & t1.Score5), 5, 1) =        
      Mid((t7.Score1 & t7.Score2 & t7.Score3 & t7.Score4 & t7.Score5), 5, 1) 
GROUP BY 'Yes @ ' & Mid((t7.Score1 & t7.Score2 & t7.Score3 & t7.Score4 & t7.Score5), 5, 1)  
HAVING Count(*) > 1) AS [Fifth Score Matches ?]

FROM Scores AS t1;

下面是输出。如您所见,用户可以通过第一列(主要内容)告诉 A 和 B 在所有 5 个分数中完全匹配;和 C & D 匹配所有四个分数,除了第一个; C 匹配前两个项目 A 和 B,但第三个分数除外; D 在除第一和第三得分之外的所有得分上都匹配前两个 A 和 B。

我继续测试了另外四个可能的分数:

诚然,这些输出可能看起来像是对原始表格的重新样式化,但请记住,只会出现大于 1 的出现次数。您可以将此查询输出到表中并过滤/排序以更清晰地查看模式。

最后,如果您需要检查前三个分数、后两个分数或多个分数的任意组合,则可以扩展此功能。只需使用Left(StringScores, 2)Mid(StringScores, 4, 2) 字符串函数添加相应的子查询。

【讨论】:

以上是关于比较 SQL 表行,如果完全匹配、1 个差异、2 个差异等返回不同的答案的主要内容,如果未能解决你的问题,请参考以下文章

[原]用SQL比较两张结构完全相同的表数据

比较 2 个表中的值并生成具有差异的新表

如何比较 2 个 iframe 并在视觉上获得差异?

在 SQL 中将值列表与表行连接起来

SQL2008报错:无法还原日志备份或差异备份,因为没有文件可用于前滚---还原SQLSERVER数据库差异备份

SQL2008报错:无法还原日志备份或差异备份,因为没有文件可用于前滚---还原SQLSERVER数据库差异备份