正则语言的并交差

Posted 2022-11-30 Terark-CTO-雷鹏

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了正则语言的并交差相关的知识，希望对你有一定的参考价值。

请关注我们的技术创业项目 Terark，领先的数据技术提供商

本文转载于我自己的官方网站：nfabo.cn

正则语言的并交差

作者: rockeet 发表日期: 2014年09月08日分类: 自动机评论: 0 条阅读次数: 7 次 [编辑]

正则表达式，描述的是正则语言，学过形式语言与自动机理论的人应该都知道，正则语言在并、交、差、补运算下都是封闭的；但是，根据 Wikipedia 的描述，到目前为止，还没有任何一个已知的正则语法(Flavor)将交和差纳入正则语法。理论与实践之间竟然隔着这么巨大的鸿沟！

虽然 Perl 正则中支持的环视(Look Around)在某种意义上可以认为是交和差的受限子集，之所以说是受限，因为你无法自由组合并交差操作。另一方面，环视在这些引擎中都是以回溯的方式实现的，效率十分低下。

其实，不光正则语言在并、交、差、补运算下都是封闭的，而且，用来表达正则语言的 DFA 可以比较高效地实现这些操作，对比 NFA 转 DFA 的 O(2ⁿ)，并交差的复杂度是O(n*m)，补的复杂度是O(n)；这比 O(2ⁿ) 要乐观地多，而且，这只是最坏情况下的复杂度，现实中很多时候都是 O(n^1+ε)，这其中的 ε 往往接近于0，NFA 转 DFA 的最坏 O(2ⁿ)在现实中也往往是O(n^1+ε)，不过这个 ε 往往要大一些。

经过一番努力，我填补了交、差这个鸿沟，为了语言的完备性和易用性，同时也实现了传统正则的并、连接、重复，为了区别于传统的 RegEx，暂且把它叫 RegEx++。

在语言设计上，一方面为了避免处理无比复杂的转义、字符类、unicode之类的泥潭，另一方面也为了兼容传统的正则，我设计的 RegEx++ 语言分为两部分，一部分是去除了环视和反向引用的Perl正则(re2语法)，一部分是 RegEx++ 特有的并、交、差、连接、重复。

以 BNF 范式表达

Union  :=Inter'||'Union
Inter  :=ConCat'&&'ConCat|'&!'ConCat
ConCat :=RepeatRepeat
Repeat :=Atom['?'|'*'|'+'|Range]
Atom   :=''Regex''|'('Union')'
Range  :=''Min[','Max]|','Max''

用更通俗的方式表达

优先级	操作符	说明
最高	Plain Old Regex	括起来的部分是传统的正则表达式，使用 re2 的 Parser 解析
较高	( )	调整优先级
高	?	重复:0次或1次	语法和意义与传统正则相同
	*	重复:0次或多次
	+	重复:1次或多次
	min,max	重复:最少min次，最多max次
中	无操作符	连接，连着写就行
较低	&&	交，x && y 表示既能匹配 x 又能匹配 y
	&!	差，x &! y 表示能匹配 x 但不能匹配 y
最低	\|\|	并，x \|\| y 表达能匹配 x 或者能匹配 y

这里面唯一比较别扭的是括起来的 Plain Old Regex，值得一提的是，和，用来括住正则表达式(re2语法)，一个语法正确并且规范的正则表达式中不会出现和，只有一个例外：\\，这个例外很容易处理。其实严格讲，语法正确的正则表达式中可以出现和，但这样正则表达式往往是有问题的，和用作非元字符时，需要转义（\\和\\），而和不转义时是元字符，不会出现和， Plain Old Regex 允许未转义的和是为了最大限度地“容忍错误”，传统正则语法甚至容忍这样的正则: [[[[]*，还有 ]1-2，你知道这都是什么意思吗？