多个 RegEx 否定匹配

Posted

技术标签:

【中文标题】多个 RegEx 否定匹配【英文标题】:Multiple RegEx negation matching 【发布时间】:2018-02-14 16:33:38 【问题描述】:

我有以下 RegEx 模式:

    "[0-9]4,5\.FU|[0-9]4,5\.NG|[0-9]4,5\.SP|[0-9]4,5\.T|JGB[A-Z][0-9]|JNI[A-Z][0-9]|JN4F[A-Z][0-9]|JNM[A-Z][0-9]|JTI[A-Z][0-9]|JTM[A-Z][0-9]|NIY[A-Z][0-9]|SSI[A-Z][0-9]|JNI[A-Z][0-9]-[A-Z][0-9]|JTI[A-Z][0-9]-[A-Z][0-9]" ===> 匹配 8411.T 或 JNID8 "[0-9]4,5\.HK|HSI[A-Z][0-9]|HMH[A-Z][0-9]|HCEI[A-Z][0-9]|HCEI[A-Z][0-9]-[A-Z][0-9]" ==> 匹配 9345.HK 或 HCEIU9-A9 ".*\.SI|SFC[A-Z][0-9]" ==> 匹配 8345.SI 或 SFCX8

如何从这些模式的否定中获得正则表达式? 我想匹配与这三种模式都不匹配的字符串: 例如我想匹配 8411.ABC,但不是上述任何字符串(8411.T、HCEIU-A9、8345.SI 等)。

我已经尝试过(例如,仅排除 2 和 3,但它没有 work):

^(?!((.*\.SI|SFC[A-Z][0-9])|([0-9]4,5\.HK|HSI[A-Z][0-9]|HMH[A-Z][0-9]|HCEI[A-Z][0-9]|HCEI[A-Z][0-9]-[A-Z][0-9]))) 

【问题讨论】:

^(?!.*pattern1)(?!.*pattern2)(?!.*pattern3) 我试过了,但没用。 请包括该尝试并描述您的期望。 我已经更新了问题。 HSIT9 不应匹配 acc。到正则表达式 2. Anf HCEIU-A9 与您的正则表达式不匹配。我认为你必须用(?:...) 包装模式。见this regex demo。 【参考方案1】:

这里的主要思想是将模式放入固定在字符串开头的(?!.*<pattern>) 负前瞻 (^)。这里的困难在于您的模式包含未锚定的交替,如果不分组,则模式之前的.* 将仅引用第一个选项(即所有后续选项只会在字符串的开头被否定。

因此,您的模式公式是^(?!.*(?:<PATTERN1>))(?!.*(?:<PATTERN2>))(?!.*(?:<PATTERN3>))。请注意,如果您只需要获得布尔结果,则末尾的 .+.* 是可选的。请注意,在最后一个模式中,您需要删除第一个替代方案中的.*,使用.*.* 没有意义。

使用

^(?!.*(?:[0-9]4,5\.FU|[0-9]4,5\.NG|[0-9]4,5\.SP|[0-9]4,5\.T|JGB[A-Z][0-9]|JNI[A-Z][0-9]|JN4F[A-Z][0-9]|JNM[A-Z][0-9]|JTI[A-Z][0-9]|JTM[A-Z][0-9]|NIY[A-Z][0-9]|SSI[A-Z][0-9]|JNI[A-Z][0-9]-[A-Z][0-9]|JTI[A-Z][0-9]-[A-Z][0-9]))(?!.*(?:[0-9]4,5\.HK|HSI[A-Z][0-9]|HMH[A-Z][0-9]|HCEI[A-Z][0-9]|HCEI[A-Z][0-9]-[A-Z][0-9]))(?!.*(?:\.SI|SFC[A-Z][0-9])).+

请参阅regex demo。

您也可以将公式收缩到^(?!.*(?:<PATTERN1>|<PATTERN2>|<PATTERN3>))

^(?!.*(?:[0-9]4,5\.FU|[0-9]4,5\.NG|[0-9]4,5\.SP|[0-9]4,5\.T|JGB[A-Z][0-9]|JNI[A-Z][0-9]|JN4F[A-Z][0-9]|JNM[A-Z][0-9]|JTI[A-Z][0-9]|JTM[A-Z][0-9]|NIY[A-Z][0-9]|SSI[A-Z][0-9]|JNI[A-Z][0-9]-[A-Z][0-9]|JTI[A-Z][0-9]-[A-Z][0-9]|[0-9]4,5\.HK|HSI[A-Z][0-9]|HMH[A-Z][0-9]|HCEI[A-Z][0-9]|HCEI[A-Z][0-9]-[A-Z][0-9]|\.SI|SFC[A-Z][0-9])).+

见another regex demo。

【讨论】:

“?:”的用途是什么?它有什么作用? 见What is a non-capturing group? What does a question mark followed by a colon (?:) mean?。只需对备选方案进行分组,而不将值存储在内存中。

以上是关于多个 RegEx 否定匹配的主要内容,如果未能解决你的问题,请参考以下文章

正则表达式 - 使用否定环视匹配同句中的单词

python regex如何避免匹配多个分号?

redshift regex 获取多个匹配项并扩展行

正则之环视

正则表达式 regex

正则表达式(regex)