如何仅使用BeautifulSoup和Python删除包含空格的HTML标记
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何仅使用BeautifulSoup和Python删除包含空格的HTML标记相关的知识,希望对你有一定的参考价值。
我一直试图抓取一些HTML并从中提取某些文本。
HTML包含空标记或仅包含空格的标记。
如何摆脱树上的所有标签?我正在使用美丽的汤和蟒蛇。
答案
您可以使用decompose()
函数来执行此操作。
markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup)
a_tag = soup.a
soup.i.decompose()
a_tag
# <a href="http://example.com/">I linked to</a>
您需要循环遍历标记并查找具有空内容的标记,然后使用上面的函数将其从树中删除。
以上是关于如何仅使用BeautifulSoup和Python删除包含空格的HTML标记的主要内容,如果未能解决你的问题,请参考以下文章
如何使用 BeautifulSoup4 仅获取“href”? [复制]
使用 BeautifulSoup 按 id 获取 div 的内容
如何使用 Python 3.5 和 BeautifulSoup 抓取 href [重复]