Python爬虫编程思想(33):匹配字符串的起始和结尾以及单词边界

Posted 蒙娜丽宁

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫编程思想(33):匹配字符串的起始和结尾以及单词边界相关的知识,希望对你有一定的参考价值。

          “^”符号用于表示匹配字符串的开始,“$”符号用于表示匹配字符串的结束,“\\b”符号用于表示单词的边界。这里的边界是指单词两侧是空格或标点符号。例如“ abc?”可以认为abc两侧都有边界,左侧是空格,右侧是问号(?),但“ abcx”就不能认为abc右侧有边界,因为“x”和“abc”都可以认为是单词。

下面的例子演示了如何匹配字符串的起始和结束,以及单词边界的匹配。

import re
# 匹配成功
m = re.search(\'^The\', \'The end.\')
print(m)
if m is not None:
    print(m.group())			# 运行结果:The
# The在匹配字符串的最后,不匹配
m = re.search(\'^The\', \'end. The\')
print(m)
if m is not None:
    print(m.group())
# 匹配成功
m = re.search(\'The$\', \'end. The\')
print(m)
if m is not None:
    print(m.group())				# 运行结果:The
m = re.search(\'The$\', \'The end.

以上是关于Python爬虫编程思想(33):匹配字符串的起始和结尾以及单词边界的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫编程思想(30):用正则表达式匹配多个字符串和任意单个字符

Python爬虫编程思想(31):在正则表达式中使用字符集匹配重复可选字符和特殊字符

Python爬虫编程思想(32):正则表达式的分组

Python爬虫编程思想(42):XPath实战:匹配属性

Python爬虫编程思想(34):使用findall和finditer查找每一次出现的位置

Python爬虫编程思想(35):用正则表达式搜索替换和分隔字符串