Python split() 不删除分隔符[重复]
Posted
技术标签:
【中文标题】Python split() 不删除分隔符[重复]【英文标题】:Python split() without removing the delimiter [duplicate] 【发布时间】:2011-12-13 13:07:41 【问题描述】:这段代码几乎可以满足我的需要..
for line in all_lines:
s = line.split('>')
除了删除所有的“>”分隔符。
所以,
<html><head>
变成
['<html','<head']
有没有办法使用 split() 方法但保留分隔符,而不是删除它?
有了这些结果..
['<html>','<head>']
【问题讨论】:
这并不能真正回答您的问题,但如果您尝试在 Python 中解析 HTML,我强烈推荐 Beautiful Soup。 另见In Python, how do I split a string and keep the separators?。 这个问题应该重新打开。重复的是正则表达式特定的。 @orestisf 另外,“重复”回答了一个不同的问题。['<html', '>', '<head', '>', '']
与 ['<html>', '<head>']
不同。我知道已经几个月了,但我刚刚投票决定重新开放。如果您也这样做,其他人是否可以越过终点线?
re.split(r"(?(?!$))", '') 直接给出了答案。这种方式可以通过使用正则表达式环顾来处理
【参考方案1】:
d = ">"
for line in all_lines:
s = [e+d for e in line.split(d) if e]
【讨论】:
效果很好......但我不完全理解发生了什么。 @some1 它基本上迭代拆分的结果并重新添加分隔符。 "s 是一个列表,该列表中的每个元素都是 e + d,其中 e 是line.split(d) 的结果,但前提是 e 不为空" 这会为结果列表的所有元素添加分隔符,包括没有分隔符的单元素列表...如果您仅希望将分隔符附加到第一个的拆分元素? 很老的帖子,但记录一下:if e
就够了,!=""
可以省略。
这太草率了。如果字符串是“a.b.”怎么办?或“.a.b.”并在“。”上拆分【参考方案2】:
如果您使用拆分来解析 HTML,那么您很可能做错了,除非您正在编写针对固定且安全的内容文件的一次性脚本。如果它应该适用于任何 HTML 输入,你将如何处理像 <a title='growth > 8%' href='#something'>
这样的东西?
无论如何,以下对我有用:
>>> import re
>>> re.split('(<[^>]*>)', '<body><table><tr><td>')[1::2]
['<body>', '<table>', '<tr>', '<td>']
【讨论】:
如果你不确定有问题的字符串是否会以有问题的分隔符结尾,看起来你可以这样做:re.split("(.*\n?)", "my\nstr\ning")[1::2]
【参考方案3】:
这个怎么样:
import re
s = '<html><head>'
re.findall('[^>]+>', s)
【讨论】:
【参考方案4】:只需拆分它,然后为数组/列表中的每个元素(除了最后一个元素)添加一个尾随“>”。
【讨论】:
“>>”的情况会变成“>” @paulm 不,因为像"<html>>body".split('>')
那样拆分两个>
s 会在["<html", "", "body"]
中间创建一个空元素。除非您希望多个 >
s 在处理后只产生一个 >
,在这种情况下,您可以先删除那些空字符串。以上是关于Python split() 不删除分隔符[重复]的主要内容,如果未能解决你的问题,请参考以下文章
用python实现,找出一个字符串中的重复字符子串和字符串数量