如何用空白替换文本中提取的 HTML 标签?
Posted
技术标签:
【中文标题】如何用空白替换文本中提取的 HTML 标签?【英文标题】:How to replace extracted HTML tags in a text with a blank? 【发布时间】:2015-09-14 15:17:44 【问题描述】:我正在从没有所有标签的 html 页面中提取文本(使用 Python 和 BeautifulSoup)。但是,标签不会替换为空白。因此,例如,对于“blah blahDIVTAGblah”,我得到以下文本“blah blahblah”。如何在第二个和第三个 blah 之间插入空白?我正在使用以下代码。
# kill all script and style elements
for script in soup(["script", "style"]):
script.extract()
代码来自BeautifulSoup Grab Visible Webpage Text
【问题讨论】:
【参考方案1】:您可以使用 .replace_with()
简单地将标签替换为空白:
for script in soup(["script", "style"]):
script.replace_with(" ")
【讨论】:
非常感谢@har07。我认为这是要走的路。最后,我决定用正则表达式替换标签(例如,html = re.sub('<li>', ' LIST_BULLET ', html
),因为这更适合我的具体问题。以上是关于如何用空白替换文本中提取的 HTML 标签?的主要内容,如果未能解决你的问题,请参考以下文章
如何用空白页替换 Spring Boot 的“Whitelabel Error Page”?
如何用另一个文件中的组(已知正则表达式)替换一个文件中的空白空间?