Python split() 不删除分隔符[重复]

Posted

技术标签:

【中文标题】Python split() 不删除分隔符[重复]【英文标题】:Python split() without removing the delimiter [duplicate] 【发布时间】:2011-12-13 13:07:41 【问题描述】:

这段代码几乎可以满足我的需要..

for line in all_lines:
    s = line.split('>')

除了删除所有的“>”分隔符。

所以,

<html><head>

变成

['<html','<head']

有没有办法使用 split() 方法但保留分隔符,而不是删除它?

有了这些结果..

['<html>','<head>']

【问题讨论】:

这并不能真正回答您的问题,但如果您尝试在 Python 中解析 HTML,我强烈推荐 Beautiful Soup。 另见In Python, how do I split a string and keep the separators?。 这个问题应该重新打开。重复的是正则表达式特定的。 @orestisf 另外,“重复”回答了一个不同的问题。 ['&lt;html', '&gt;', '&lt;head', '&gt;', '']['&lt;html&gt;', '&lt;head&gt;'] 不同。我知道已经几个月了,但我刚刚投票决定重新开放。如果您也这样做,其他人是否可以越过终点线? re.split(r"(?(?!$))", '') 直接给出了答案。这种方式可以通过使用正则表达式环顾来处理 【参考方案1】:
d = ">"
for line in all_lines:
    s =  [e+d for e in line.split(d) if e]

【讨论】:

效果很好......但我不完全理解发生了什么。 @some1 它基本上迭代拆分的结果并重新添加分隔符。 "s 是一个列表,该列表中的每个元素都是 e + d,其中 e 是line.split(d) 的结果,但前提是 e 不为空" 这会为结果列表的所有元素添加分隔符,包括没有分隔符的单元素列表...如果您希望将分隔符附加到第一个的拆分元素? 很老的帖子,但记录一下:if e就够了,!=""可以省略。 这太草率了。如果字符串是“a.b.”怎么办?或“.a.b.”并在“。”上拆分【参考方案2】:

如果您使用拆分来解析 HTML,那么您很可能做错了,除非您正在编写针对固定且安全的内容文件的一次性脚本。如果它应该适用于任何 HTML 输入,你将如何处理像 &lt;a title='growth &gt; 8%' href='#something'&gt; 这样的东西?

无论如何,以下对我有用:

>>> import re
>>> re.split('(<[^>]*>)', '<body><table><tr><td>')[1::2]
['<body>', '<table>', '<tr>', '<td>']

【讨论】:

如果你不确定有问题的字符串是否会以有问题的分隔符结尾,看起来你可以这样做:re.split("(.*\n?)", "my\nstr\ning")[1::2]【参考方案3】:

这个怎么样:

import re
s = '<html><head>'
re.findall('[^>]+>', s)

【讨论】:

【参考方案4】:

只需拆分它,然后为数组/列表中的每个元素(除了最后一个元素)添加一个尾随“>”。

【讨论】:

“>>”的情况会变成“>” @paulm 不,因为像"&lt;html&gt;&gt;body".split('&gt;') 那样拆分两个&gt;s 会在["&lt;html", "", "body"] 中间创建一个空元素。除非您希望多个 &gt;s 在处理后只产生一个 &gt;,在这种情况下,您可以先删除那些空字符串。

以上是关于Python split() 不删除分隔符[重复]的主要内容,如果未能解决你的问题,请参考以下文章

用python实现,找出一个字符串中的重复字符子串和字符串数量

Python中的千位分隔符[重复]

python:strip()函数和split()函数

区别 |Python str.split()和re.split()

python中line.split()的用法及实际使用示例

在java中使用分隔符为'|'的split函数字符(或符号)[重复]