Python之在字符串中处理html和xml

Posted 朱兆筠

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python之在字符串中处理html和xml相关的知识,希望对你有一定的参考价值。

需求:替换文本字符串中的 ‘<’ 或者 ‘>’ ,使用 html.escape() 函数

import html
s="<div>你好<div>"
print(html.escape(s))   # &lt;div&gt;你好&lt;div&gt;

需求:含有编码值的原始文本,需要手动去做替换(较常见)

from html.parser import HTMLParser
d="&lt;div&gt;你好&lt;div&gt;"
p=HTMLParser()
print(p.unescape(d))    # <div>你好<div>

需求:如果你正在处理的是ASCII文本,并且想将非ASCII文本对应的编码实体嵌入进去

#  可以给某些I/O函数传递参数 errors=‘xmlcharrefreplace‘ 来达到这个目
b = Spicy Jalapeño
print(b.encode(ascii, errors=xmlcharrefreplace))   # b‘Spicy Jalape&#241;o‘

 

以上是关于Python之在字符串中处理html和xml的主要内容,如果未能解决你的问题,请参考以下文章

2017.07.16 Python网络编程之在套接字服务器中使用ThreadingMixIn

Linux命令之在文件中查找符合指定条件的字符串egrep

Chrome读取XML一片空白,怎么处理

[python 学习] 使用 xml.etree.ElementTree 模块处理 XML

Android之在活动中使用Menu

支付宝小程序之在axml使用封装js