如何从python中的正则表达式匹配中返回一个字符串? [复制]

Posted

技术标签:

【中文标题】如何从python中的正则表达式匹配中返回一个字符串? [复制]【英文标题】:How do I return a string from a regex match in python? [duplicate] 【发布时间】:2013-08-31 20:49:21 【问题描述】:

我正在使用python 脚本遍历文本文件中的行。 我想在文本文档中搜索img 标签并将标签作为文本返回。

当我运行正则表达式 re.match(line) 时,它会返回一个 _sre.SRE_MATCH 对象。 如何让它返回一个字符串?

import sys
import string
import re

f = open("sample.txt", 'r' )
l = open('writetest.txt', 'w')

count = 1

for line in f:
    line = line.rstrip()
    imgtag  = re.match(r'<img.*?>',line)
    print("yo it's a ".format(imgtag))

运行时打印:

yo it's a None
yo it's a None
yo it's a None
yo it's a <_sre.SRE_Match object at 0x7fd4ea90e578>
yo it's a None
yo it's a <_sre.SRE_Match object at 0x7fd4ea90e578>
yo it's a None
yo it's a <_sre.SRE_Match object at 0x7fd4ea90e578>
yo it's a <_sre.SRE_Match object at 0x7fd4ea90e5e0>
yo it's a None
yo it's a None

【问题讨论】:

【参考方案1】:

您应该使用re.MatchObject.group(0)。喜欢

imtag = re.match(r'<img.*?>', line).group(0)

编辑:

你也可能会更好地做一些类似的事情

imgtag  = re.match(r'<img.*?>',line)
if imtag:
    print("yo it's a ".format(imgtag.group(0)))

消除所有Nones。

【讨论】:

见docs.python.org/2/library/re.html#match-objects 我尝试了如上所示的代码,但得到了None的返回值。如果我将 ' 方法更改为 'search' 而不是 'match' 我得到了预期的结果。不知道这是为什么...? Match is anchored to the start of the line. imgtag.group() 没有索引也可以【参考方案2】:

imgtag.group(0)imgtag.group()。这会将整个匹配项作为字符串返回。您也没有捕获任何其他内容。

http://docs.python.org/release/2.5.2/lib/match-objects.html

【讨论】:

【参考方案3】:

请注意,re.match(pattern, string, flags=0) 仅返回字符串开头处的匹配项。如果您想在字符串中找到匹配任何地方,请改用re.search(pattern, string, flags=0) (https://docs.python.org/3/library/re.html)。这将扫描字符串并返回第一个匹配对象。然后您可以按照人们的建议使用match_object.group(0) 提取匹配的字符串。

【讨论】:

【参考方案4】:

考虑到可能有多个img 标签,我推荐re.findall

import re

with open("sample.txt", 'r') as f_in, open('writetest.txt', 'w') as f_out:
    for line in f_in:
        for img in re.findall('<img[^>]+>', line):
            print >> f_out, "yo it's a ".format(img)

【讨论】:

以上是关于如何从python中的正则表达式匹配中返回一个字符串? [复制]的主要内容,如果未能解决你的问题,请参考以下文章

42 python中正则中的分组 正则中匹配字符串的起始和结尾以及单词边界

python中的正则表达式:如何在模式中使用变量字符串? [复制]

python__标准库 : 正则表达式(re)

python中的正则表达式

从正则表达式仅返回部分匹配项

从正则表达式仅返回部分匹配项