Bleach:Mozilla 出品,快速准确地清理 HTML

Posted 开源前哨

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Bleach:Mozilla 出品,快速准确地清理 HTML相关的知识,希望对你有一定的参考价值。

【导语】:Bleach 是 Mozilla 官方开发的 html 清理库,用 Python 实现。它使用简单,能够快速准确地清理文本中的 HTML 片段,还能提取出其中的链接,通过点击链接,你就能安全地查阅对应的内容。

简介

在日常的工作中,你是否碰到过带有 HTML 片段的内容,比如博客上的用户评论,或者商品的描述信息?在处理这些内容时,你是否因其中包含的无效标记,不完整标签以及不安全链接而困扰?如果你曾碰到过上述问题,那么 Bleach 库将会解决你的烦恼。Bleach 是一个基于白名单的 HTML 清理库,可以转义或去除标记和属性。简而言之,你可以自定义一个列表,其中包括允许存在的标签或属性,当接收到一部分 HTML 文本时,Bleach 能够把文本中的其他标签换码,并去除其他属性;另外,Bleach 还能安全地链接到文本,例如:你可以把一部分 HTML 文本中的所有 URL 转化为安全的 HTML 链接,同时你还能给这些链接自定义属性,还能删除某些不安全的链接。

项目地址:

https://github.com/mozilla/bl...

安装

用 pip 安装:

pip install bleach  

使用简单

  1. 假设我们想清理一部分 HTML 中的<i></i>标签:
import nbsp;bleach  
result = bleach.clean(  
    "<b><i>开源前哨</i></b>",  
    tags=["b"]  
)  
print(result)  

输出结果如下:
<b>&lt;i&gt;开源前哨&lt;/i&gt;</b>

  1. 假设我们想清理一部分 HTML 中的某个属性:
import bleach  
result = bleach.clean(  
    \'<p class="foo" style="color: red; font-weight: bold;">开源前哨</p>\',  
    tags=[\'p\'],  
    attributes=[\'style\'],  
    styles=[\'color\'],  
)  
print(result)  

输出结果如下:
<p style="color: red;">开源前哨</p>

  1. 假设我们想提取链接,并加一个标题:
from bleach.linkifier import Linker  
def set_title(attrs, new=False):  
    attrs[(None, \'title\')] = \'京东商城\'  
    return attrs  
linker = Linker(callbacks=[set_title])  
result = linker.linkify(\'shopping https://www.jd.com Buy things.\')  
print(result)  

输出结果如下:

shopping <a href="https://www.jd.com/" title="京东商城">https://www.jd.com</a> Buy things.  
  1. 假设我们想删除某个链接:
from bleach.linkifier import Linker  
def remove_link(attrs, new=False):  
    if attrs[(None, \'href\')].startswith(\'https:\'):  
        return None  
    return attrs  
linker = Linker(callbacks=[remove_link])  
result = linker.linkify(\'<a href="https://www.abc.com">a website</a>\')  
print(result)  

输出结果如下:
a website

Bleach 的简单介绍就到这里,更多内容详见该库的官方文档:https://bleach.readthedocs.io/

开源前哨 日常分享热门、有趣和实用的开源项目。参与维护 10万+ Star 的开源技术资源库,包括:Python、Java、C/C++、Go、JS、CSS、Node.js、php、.NET 等。

以上是关于Bleach:Mozilla 出品,快速准确地清理 HTML的主要内容,如果未能解决你的问题,请参考以下文章

python bleach --- 让html干净些

linux-clean

如何在纯 C++ 中高效快速地清理我的 GDI 对象 - winapi(不是 .net,c#)?

在进行数据预处理时,数据清理只能进行几次?

Unix:用于清理日常构建的快速“删除目录”

转 如何快速清理 chrom 缓存