忽略插入违反重复键索引的行
Posted
技术标签:
【中文标题】忽略插入违反重复键索引的行【英文标题】:ignore insert of rows that violate duplicate key index 【发布时间】:2011-01-11 20:17:38 【问题描述】:我执行如下插入:
INSERT INTO foo (a,b,c)
SELECT x,y,z
FROM fubar
WHERE ...
但是,如果正在插入的某些行违反了 foo 上的重复键索引,我希望数据库忽略这些行,而不是插入它们并继续插入其他行。
有问题的数据库是 Informix 11.5。目前所发生的只是数据库抛出了一个异常。如果我尝试通过以下方式处理异常:
ON EXCEPTION IN (-239)
END EXCEPTION WITH RESUME;
... 它没有帮助,因为在捕获异常后,整个插入被跳过。
我认为informix 不支持INSERT IGNORE 或INSERT ... ON DUPLICATE KEY...,但如果我错了,请随时纠正我。
【问题讨论】:
Informix 是否支持左连接?如果是这样,您就不能查询已经在 foo 中的行。 Informix 确实支持左连接。它还 (IDS 11.50) 支持 MERGE,可用于插入新行或更新现有行。 我在这里遗漏了什么吗?为什么索引是唯一的?在我看来,这个问题应该重命名为“如何在 Informix 中创建非唯一索引?” 【参考方案1】:使用 IF 语句和 EXISTS 函数检查是否存在记录。或者您可以在 WHERE 子句中包含 EXISTS 函数,如下所示
INSERT INTO foo (a,b,c)
SELECT x,y,z
FROM fubar
WHERE (NOT EXISTS(SELECT a FROM foo WHERE ...))
【讨论】:
这仅用于避免与foo
表中的原始行重复。如果fubar
表中有重复行,仍然会引发异常,因为NOT EXISTS (SELECT a FROM foo WHERE ...)
语句中的foo
表在fubar
表中不包含任何新行,直到INSERT
操作完成。
【参考方案2】:
根据您是否想了解所有错误(通常是数据加载操作的结果),请考虑使用violations tables。
START VIOLATIONS TABLE FOR foo;
这将创建一对表 foo_vio 和 foo_dia 以包含有关违反表完整性约束的行的信息。
当你受够了,你使用:
STOP VIOLATIONS TABLE FOR foo;
您可以在闲暇时清理诊断表。命令有一些花里胡哨的东西来控制使用哪个表等。(我可能应该注意,这假设您使用的是 IDS(IBM Informix Dynamic Server),而不是说,Informix SE 或 Informix OnLine。)
违例表是一种重型选项 - 适用于负载等。它们通常不用于保护普通 SQL。为此,受保护的 INSERT(带有 SELECT 和 WHERE NOT EXISTS)相当有效 - 它要求数据已经在表中,但临时表很容易创建。
【讨论】:
【参考方案3】:还有几个其他选项需要考虑。
从版本 11.50 开始,Informix 支持 MERGE 语句。这可用于从 fubar 中插入 foo 中不存在相应行的行,并使用 foo 中已存在相应行的 fubar 中的值更新 foo 中的行(重复键问题)。
另一种看待它的方式是:
SELECT fubar.*
FROM fubar JOIN foo ON fubar.pk = foo.pk
INTO TEMP duplicate_entries;
DELETE FROM fubar WHERE pk IN (SELECT pk FROM duplicate_entries);
INSERT INTO foo SELECT * FROM fubar;
...processs duplicate_entries
DROP TABLE duplicate_entries
这会在尝试插入数据之前清除重复条目的源表 (fubar)(假设它只是重复的主键)。 duplicate_entries 表包含 fubar 中带有重复键的行 - 那些需要以某种形状或形式进行特殊处理的行。或者您可以简单地删除并忽略这些行,但根据我的经验,这很少是一个好主意。
【讨论】:
【参考方案4】:可能是您的朋友在此分组。防止输入重复的行。在您的选择中使用分组依据。这将强制重复项进入唯一的行。我唯一会做的就是测试看看是否有任何性能问题。此外,请确保在 group by 中包含您希望唯一的所有行,或者您可以排除不重复的行。
INSERT INTO FOO(Name, Address, Age, Gadget, Price)
select Name, Age, Gadget, Price
from foobar
group by Name, Age, Gadget, Price
其中姓名、年龄、小工具、价格构成主键索引(或唯一键索引)。 另一种可能性是将重复的行写入没有索引的错误表,然后在将重复的行插入新表之前解决它们。只需在上面添加一个having count(*) > 1 子句即可。
【讨论】:
我应该看看这个发布的日期。但是,如果有人需要做类似的事情,上面的代码是 ANSI SQL,所以它应该适用于任何 RDBMS。【参考方案5】:我不了解 Informix,但是使用 SQL Server,您可以创建一个索引,使其唯一,然后设置一个属性使其忽略重复键,因此不会在重复键上引发错误。它只是被忽略了。也许 Informix 也有类似的东西。
【讨论】:
以上是关于忽略插入违反重复键索引的行的主要内容,如果未能解决你的问题,请参考以下文章
违反 PRIMARY KEY 约束“PK_EMPLOYEE”。无法在对象中插入重复键
批量从Dataframe插入到DB,忽略Pyspark中的失败行