如何仅使用BeautifulSoup和Python删除包含空格的HTML标记

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何仅使用BeautifulSoup和Python删除包含空格的HTML标记相关的知识,希望对你有一定的参考价值。

我一直试图抓取一些HTML并从中提取某些文本。

HTML包含空标记或仅包含空格的标记。

如何摆脱树上的所有标签?我正在使用美丽的汤和蟒蛇。

答案

您可以使用decompose()函数来执行此操作。

markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup)
a_tag = soup.a

soup.i.decompose()

a_tag
# <a href="http://example.com/">I linked to</a>

您需要循环遍历标记并查找具有空内容的标记,然后使用上面的函数将其从树中删除。

以上是关于如何仅使用BeautifulSoup和Python删除包含空格的HTML标记的主要内容,如果未能解决你的问题,请参考以下文章