如何用空白替换文本中提取的 HTML 标签?

Posted

技术标签:

【中文标题】如何用空白替换文本中提取的 HTML 标签?【英文标题】:How to replace extracted HTML tags in a text with a blank? 【发布时间】:2015-09-14 15:17:44 【问题描述】:

我正在从没有所有标签的 html 页面中提取文本(使用 Python 和 BeautifulSoup)。但是,标签不会替换为空白。因此,例如,对于“blah blahDIVTAGblah”,我得到以下文本“blah blahblah”。如何在第二个和第三个 blah 之间插入空白?我正在使用以下代码。

# kill all script and style elements
    for script in soup(["script", "style"]):
        script.extract()

代码来自BeautifulSoup Grab Visible Webpage Text

【问题讨论】:

【参考方案1】:

您可以使用 .replace_with() 简单地将标签替换为空白:

for script in soup(["script", "style"]):
    script.replace_with(" ")

【讨论】:

非常感谢@har07。我认为这是要走的路。最后,我决定用正则表达式替换标签(例如,html = re.sub('<li>', ' LIST_BULLET ', html),因为这更适合我的具体问题。

以上是关于如何用空白替换文本中提取的 HTML 标签?的主要内容,如果未能解决你的问题,请参考以下文章

如何用空白页替换 Spring Boot 的“Whitelabel Error Page”?

如何用另一个文件中的组(已知正则表达式)替换一个文件中的空白空间?

excel 如何用函数去掉空白行 !!求救,郁闷一天了!!

如何用两个 textInputs 编写 MODULE,其中一个输入,另一个和 vv 空白?

如何用VBA实现WORD批量替换?

用 <p> 标签替换 textarea 中的空行并将其显示为 HTML 有效代码