忽略插入违反重复键索引的行

Posted

技术标签:

【中文标题】忽略插入违反重复键索引的行【英文标题】:ignore insert of rows that violate duplicate key index 【发布时间】:2011-01-11 20:17:38 【问题描述】:

我执行如下插入:

INSERT INTO foo (a,b,c)
   SELECT x,y,z
   FROM fubar
   WHERE ...

但是,如果正在插入的某些行违反了 foo 上的重复键索引,我希望数据库忽略这些行,而不是插入它们并继续插入其他行。

有问题的数据库是 Informix 11.5。目前所发生的只是数据库抛出了一个异常。如果我尝试通过以下方式处理异常:

ON EXCEPTION IN (-239)
END EXCEPTION WITH RESUME;

... 它没有帮助,因为在捕获异常后,整个插入被跳过。

我认为informix 不支持INSERT IGNORE 或INSERT ... ON DUPLICATE KEY...,但如果我错了,请随时纠正我。

【问题讨论】:

Informix 是否支持左连接?如果是这样,您就不能查询已经在 foo 中的行。 Informix 确实支持左连接。它还 (IDS 11.50) 支持 MERGE,可用于插入新行或更新现有行。 我在这里遗漏了什么吗?为什么索引是唯一的?在我看来,这个问题应该重命名为“如何在 Informix 中创建非唯一索引?” 【参考方案1】:

使用 IF 语句和 EXISTS 函数检查是否存在记录。或者您可以在 WHERE 子句中包含 EXISTS 函数,如下所示

INSERT INTO foo (a,b,c) 
SELECT x,y,z 
FROM fubar 
WHERE (NOT EXISTS(SELECT a FROM foo WHERE ...))

【讨论】:

这仅用于避免与foo 表中的原始行重复。如果fubar 表中有重复行,仍然会引发异常,因为NOT EXISTS (SELECT a FROM foo WHERE ...) 语句中的foo 表在fubar 表中不包含任何新行,直到INSERT 操作完成。 【参考方案2】:

根据您是否想了解所有错误(通常是数据加载操作的结果),请考虑使用violations tables。

START VIOLATIONS TABLE FOR foo;

这将创建一对表 foo_vio 和 foo_dia 以包含有关违反表完整性约束的行的信息。

当你受够了,你使用:

STOP VIOLATIONS TABLE FOR foo;

您可以在闲暇时清理诊断表。命令有一些花里胡哨的东西来控制使用哪个表等。(我可能应该注意,这假设您使用的是 IDS(IBM Informix Dynamic Server),而不是说,Informix SE 或 Informix OnLine。)

违例表是一种重型选项 - 适用于负载等。它们通常不用于保护普通 SQL。为此,受保护的 INSERT(带有 SELECT 和 WHERE NOT EXISTS)相当有效 - 它要求数据已经在表中,但临时表很容易创建。

【讨论】:

【参考方案3】:

还有几个其他选项需要考虑。

从版本 11.50 开始,Informix 支持 MERGE 语句。这可用于从 fubar 中插入 foo 中不存在相应行的行,并使用 foo 中已存在相应行的 fubar 中的值更新 foo 中的行(重复键问题)。

另一种看待它的方式是:

SELECT fubar.*
   FROM fubar JOIN foo ON fubar.pk = foo.pk
   INTO TEMP duplicate_entries;

DELETE FROM fubar WHERE pk IN (SELECT pk FROM duplicate_entries);

INSERT INTO foo SELECT * FROM fubar;

...processs duplicate_entries

DROP TABLE duplicate_entries

这会在尝试插入数据之前清除重复条目的源表 (fubar)(假设它只是重复的主键)。 duplicate_entries 表包含 fubar 中带有重复键的行 - 那些需要以某种形状或形式进行特殊处理的行。或者您可以简单地删除并忽略这些行,但根据我的经验,这很少是一个好主意。

【讨论】:

【参考方案4】:

可能是您的朋友在此分组。防止输入重复的行。在您的选择中使用分组依据。这将强制重复项进入唯一的行。我唯一会做的就是测试看看是否有任何性能问题。此外,请确保在 group by 中包含您希望唯一的所有行,或者您可以排除不重复的行。

INSERT INTO FOO(Name, Address, Age, Gadget, Price)
select Name, Age, Gadget, Price
from foobar
group by Name, Age, Gadget, Price

其中姓名、年龄、小工具、价格构成主键索引(或唯一键索引)。 另一种可能性是将重复的行写入没有索引的错误表,然后在将重复的行插入新表之前解决它们。只需在上面添加一个having count(*) > 1 子句即可。

【讨论】:

我应该看看这个发布的日期。但是,如果有人需要做类似的事情,上面的代码是 ANSI SQL,所以它应该适用于任何 RDBMS。【参考方案5】:

我不了解 Informix,但是使用 SQL Server,您可以创建一个索引,使其唯一,然后设置一个属性使其忽略重复键,因此不会在重复键上引发错误。它只是被忽略了。也许 Informix 也有类似的东西。

【讨论】:

以上是关于忽略插入违反重复键索引的行的主要内容,如果未能解决你的问题,请参考以下文章

违反 PRIMARY KEY 约束“PK_EMPLOYEE”。无法在对象中插入重复键

勺子插入 postgres 会产生“重复键值违反唯一约束”

批量从Dataframe插入到DB,忽略Pyspark中的失败行

(转)sql 违反了 PRIMARY KEY 约束,不能在对象 中插入重复键

如何创建唯一索引

尝试插入具有 1:N 关系的实体时,重复键值违反 EntityFramework 中的唯一约束“PK_Users”错误