如何仅使用BeautifulSoup和Python删除包含空格的HTML标记

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何仅使用BeautifulSoup和Python删除包含空格的HTML标记相关的知识,希望对你有一定的参考价值。

我一直试图抓取一些HTML并从中提取某些文本。

HTML包含空标记或仅包含空格的标记。

如何摆脱树上的所有标签?我正在使用美丽的汤和蟒蛇。

答案

您可以使用decompose()函数来执行此操作。

markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup)
a_tag = soup.a

soup.i.decompose()

a_tag
# <a href="http://example.com/">I linked to</a>

您需要循环遍历标记并查找具有空内容的标记,然后使用上面的函数将其从树中删除。

以上是关于如何仅使用BeautifulSoup和Python删除包含空格的HTML标记的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 BeautifulSoup4 仅获取“href”? [复制]

使用 BeautifulSoup 按 id 获取 div 的内容

如何使用 Python 3.5 和 BeautifulSoup 抓取 href [重复]

如何使用Python BeautifulSoup刮取ID

如何使用python和beautifulsoup获取title属性?

如何使用 BeautifulSoup 和 Python 调用 JavaScript 函数