删除重复的 SQL 记录以允许唯一键
Posted
技术标签:
【中文标题】删除重复的 SQL 记录以允许唯一键【英文标题】:Removing duplicate SQL records to permit a unique key 【发布时间】:2010-05-18 22:28:14 【问题描述】:我在 mysql 数据库中有一个表('sales'),它理应强制执行唯一约束以防止重复。首先删除欺骗并设置约束被证明有点棘手。
表结构(简化):
'id (unique, autoinc)' product_id目标是强制 product_id 的唯一性。我要应用的重复数据删除策略是删除除最近创建的所有重复记录之外的所有重复记录,例如:最高 id。
或者换句话说,我想只删除重复记录,不包括以下查询匹配的 id,同时还保留现有的非重复记录:
select id
from sales s
inner join (select product_id,
max(id) as maxId
from sales
group by product_id
having count(product_id) > 1) groupedByProdId on s.product_id
and s.id = groupedByProdId.maxId
我在两个方面都在努力解决这个问题 - 编写查询以选择要删除的正确记录,然后是 MYSQL 中的约束,其中 DELETE 的子选择 FROM 子句不能引用要从中删除数据的同一个表。
我查看了this 的答案,它似乎处理了这个主题,但似乎特定于 sql-server,尽管我不排除复制另一个问题的可能性。
【问题讨论】:
【参考方案1】:在回复您的评论时,这里有一个适用于 MySQL 的查询:
delete YourTable
from YourTable
inner join YourTable yt2
on YourTable.product_id = yt2.product_id
and YourTable.id < yt2.id
这只会删除重复的行。 inner join
将过滤掉每个产品的最新行,即使不存在同一产品的其他行。
附:如果您尝试在FROM
之后为表命名,MySQL 会要求您指定数据库的名称,例如:
delete <DatabaseName>.yt
from YourTable yt
inner join YourTable yt2
on yt.product_id = yt2.product_id
and yt.id < yt2.id;
【讨论】:
如果我Cannot delete or update a parent row: a foreign key constraint fails ('db'.'AnotherTable', CONSTRAINT 'AnotherTable_fk' FOREIGN KEY ('YourTable.product_id') REFERENCES 'YourTable' ('product_id') ON DELETE NO ACTION)
怎么办?【参考方案2】:
也许使用ALTER IGNORE TABLE ... ADD UNIQUE KEY
。
例如:
describe sales;
+------------+---------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+------------+---------+------+-----+---------+----------------+
| id | int(11) | NO | PRI | NULL | auto_increment |
| product_id | int(11) | NO | | NULL | |
+------------+---------+------+-----+---------+----------------+
select * from sales;
+----+------------+
| id | product_id |
+----+------------+
| 1 | 1 |
| 2 | 1 |
| 3 | 2 |
| 4 | 3 |
| 5 | 3 |
| 6 | 2 |
+----+------------+
ALTER IGNORE TABLE sales ADD UNIQUE KEY idx1(product_id), ORDER BY id DESC;
Query OK, 6 rows affected (0.03 sec)
Records: 6 Duplicates: 3 Warnings: 0
select * from sales;
+----+------------+
| id | product_id |
+----+------------+
| 6 | 2 |
| 5 | 3 |
| 2 | 1 |
+----+------------+
请参阅此pythian post 了解更多信息。
请注意,id
s 以相反的顺序结束。我不认为这很重要,因为id
s 的顺序在数据库中应该不重要(据我所知!)。但是,如果这让您不快,上面链接的帖子也显示了解决此问题的方法。但是,它涉及创建一个临时表,它需要比我上面发布的就地方法更多的硬盘空间。
【讨论】:
【参考方案3】:我可能会在 sql-server 中执行以下操作来消除重复项:
DELETE FROM Sales
FROM Sales
INNER JOIN Sales b ON Sales.product_id = b.product_id AND Sales.id < b.id
看起来类似 mysql 的 delete 语句可能是:
DELETE FROM Sales
USING Sales
INNER JOIN Sales b ON Sales.product_id = b.product_id AND Sales.id < b.id
【讨论】:
是的,当您在我的评论之后发布修改后的答案时,我正在尝试,Andomar。谢谢你们。【参考方案4】:使用 CTE 和排名函数更容易解决此类问题,但是,您应该能够执行以下操作来解决您的问题:
Delete Sales
Where Exists(
Select 1
From Sales As S2
Where S2.product_id = Sales.product_id
And S2.id > Sales.Id
Having Count(*) > 0
)
【讨论】:
以上是关于删除重复的 SQL 记录以允许唯一键的主要内容,如果未能解决你的问题,请参考以下文章