正则表达式——7.4 单词边界

Posted gaara0305

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了正则表达式——7.4 单词边界相关的知识,希望对你有一定的参考价值。

??单词边界的准确解释是:一端必须出现w能匹配的字符,另一端不出现w能匹配的字符。在javascriptphp、Python 2、Ruby中,w只能匹配[0-9a-z-A-Z_]。所以在这些语言中,w+能用来匹配几乎所有的英文单词。

技术分享图片
技术分享图片
技术分享图片

字符串 正则表达式 能否匹配 说明
tom,jerry(半角标点) tom w不能匹配半角标点
tom,jerry(全角标点) tom w可以匹配全角标点
tom和jerry 和 w可以匹配中文字符
汤姆,jerry(半角标点) tom w不能匹配半角标点
汤姆,jerry(全角标点) tom w可以匹配全角标点

??总的来说,如果使用 Unicode 匹配规则,尽量不要在处理中英文混排文本时使用。如果使用 ASCII 匹配规则,则可以再处理英文文本时放心地使用

??也有更复杂的情况,比如 Java 就是如此。在 Java 中,虽然w只能匹配[0-9a-zA-Z_]对“单词字符”的判断确实按照 Unicode 匹配规则的。后面有详情





以上是关于正则表达式——7.4 单词边界的主要内容,如果未能解决你的问题,请参考以下文章

用于匹配单词的 javascript 正则表达式模式,具有自定义单词边界

什么是正则表达式中的单词边界?

正则表达式的与B总结

re 模块中的正则表达式是不是支持单词边界 (\b)?

Java正则表达式-替换表达式直至单词边界

正则表达式 -断言