python 正则表达式,多行匹配,但仍想获取行号
Posted
技术标签:
【中文标题】python 正则表达式,多行匹配,但仍想获取行号【英文标题】:python regex, match in multiline, but still want to get the line number 【发布时间】:2013-05-16 10:37:56 【问题描述】:我有很多日志文件,想用多行搜索一些模式,但是为了方便找到匹配的字符串,我还是想看看匹配区域的行号。
任何好的建议。 (复制代码示例)
string="""
####1
ttteest
####1
ttttteeeestt
####2
ttest
####2
"""
import re
pattern = '.*?####(.*?)####'
matches= re.compile(pattern, re.MULTILINE|re.DOTALL).findall(string)
for item in matches:
print "lineno: ?", "matched: ", item
[UPDATE] lineno 是实际的行号
所以我想要的输出看起来像:
lineno: 1, 1
ttteest
lineno: 6, 2
ttttteeeestt
【问题讨论】:
您是在寻找实际的行号,还是您在####
之后写的数字?
谢谢,我需要实际的行号,示例有误导性,我更新了。
【参考方案1】:
你想要的是一个正则表达式不太擅长的典型任务;解析。
您可以逐行读取日志文件,然后在该行中搜索您用来分隔搜索的字符串。您可以逐行使用正则表达式,但它比常规字符串匹配效率低,除非您正在寻找复杂的模式。
如果您正在寻找复杂的匹配项,我很想看看。在文件中搜索####
的每一行,同时保持行数在没有正则表达式的情况下更容易。
【讨论】:
这很合理,我想看看是否有可能的优雅解决方案。【参考方案2】:您可以只预先存储行号,然后再查找它。
import re
string="""
####1
ttteest
####1
ttttteeeestt
####2
ttest
####2
"""
end='.*\n'
line=[]
for m in re.finditer(end, string):
line.append(m.end())
pattern = '.*?####(.*?)####'
match=re.compile(pattern, re.MULTILINE|re.DOTALL)
for m in re.finditer(match, string):
print 'lineno :%d, %s' %(next(i for i in range(len(line)) if line[i]>m.start(1)), m.group(1))
【讨论】:
下班了,你能看看我更新的问题和示例结果吗 应该是第1组,然后代码print 'line no %d : %s' %(next(i for i in range(len(line)) if line[i]>m.start(1)), m.group(1))
,请更新代码【参考方案3】:
这可以通过以下方式相当有效地完成:
查找所有匹配项 循环换行,存储offset: line_number
映射直到最后一个匹配。
对于每个匹配,事先反向查找第一个换行符的偏移量,并在地图中查找它的行号。
这样可以避免每次匹配都倒数到文件的开头。
以下功能与re.finditer
类似
def finditer_with_line_numbers(pattern, string, flags=0):
'''
A version of 're.finditer' that returns '(match, line_number)' pairs.
'''
import re
matches = list(re.finditer(pattern, string, flags))
if not matches:
return []
end = matches[-1].start()
# -1 so a failed 'rfind' maps to the first line.
newline_table = -1: 0
for i, m in enumerate(re.finditer(r'\n', string), 1):
# don't find newlines past our last match
offset = m.start()
if offset > end:
break
newline_table[offset] = i
# Failing to find the newline is OK, -1 maps to 0.
for m in matches:
newline_offset = string.rfind('\n', 0, m.start())
line_number = newline_table[newline_offset]
yield (m, line_number)
如果你想要内容,你可以将最后一个循环替换为:
for m in matches:
newline_offset = string.rfind('\n', 0, m.start())
newline_end = string.find('\n', m.end()) # '-1' gracefully uses the end.
line = string[newline_offset + 1:newline_end]
line_number = newline_table[newline_offset]
yield (m, line_number, line)
请注意,最好避免必须从 finditer
创建列表,但这意味着我们不知道何时停止存储换行符 (它最终可能会存储许多换行符,即使只有模式匹配在文件的开头).
如果避免存储所有匹配项很重要 - 可以创建一个根据需要扫描换行符的迭代器,但不确定这在实践中会给您带来多大优势。
【讨论】:
【参考方案4】:finditer 函数可以告诉您匹配的字符范围。由此,您可以使用简单的换行正则表达式来计算匹配之前有多少换行。将换行数加一即可获得行号,因为我们在编辑器中处理文本的惯例是将第一行称为 1 而不是 0。
def multiline_re_with_linenumber():
string="""
####1
ttteest
####1
ttttteeeestt
####2
ttest
####2
"""
re_pattern = re.compile(r'.*?####(.*?)####', re.DOTALL)
re_newline = re.compile(r'\n')
count = 0
for m in re_pattern.finditer(string):
count += 1
start_line = len(re_newline.findall(string, 0, m.start(1)))+1
end_line = len(re_newline.findall(string, 0, m.end(1)))+1
print ('""""""\nstart=, end=, instance='.format(m.group(1), start_line, end_line, count))
给出这个输出
"""1
ttteest
"""
start=2, end=4, instance=1
"""2
ttest
"""
start=7, end=10, instance=2
【讨论】:
【参考方案5】:我相信这或多或少是你想要的:
import re
string="""
####1
ttteest
####1
ttttteeeestt
####2
ttest
####2
"""
pattern = '.*?####(.*?)####'
matches = re.compile(pattern, re.MULTILINE|re.DOTALL)
for match in matches.finditer(string):
start, end = string[0:match.start()].count("\n"), string[0:match.end()].count("\n")
print("lineno: %d-%d matched: %s" % (start, end, match.group()))
它可能比其他选项慢 一点,因为它重复地对字符串进行子字符串匹配和搜索,但是由于在您的示例中字符串很小,我认为为了简单而进行权衡是值得的.
我们在这里获得的也是匹配模式的行的
【讨论】:
【参考方案6】:import re
text = """
####1
ttteest
####1
ttttteeeestt
####2
ttest
####2
"""
pat = ('^####(\d+)'
'(?:[^\S\n]*\n)*'
'\s*(.+?)\s*\n'
'^####\\1(?=\D)')
regx = re.compile(pat,re.MULTILINE)
print '\n'.join("lineno: %s matched: %s" % t
for t in regx.findall(text))
结果
lineno: 1 matched: ttteest
lineno: 2 matched: ttest
【讨论】:
以上是关于python 正则表达式,多行匹配,但仍想获取行号的主要内容,如果未能解决你的问题,请参考以下文章