Python处理HTML转义字符
在抓网页数据经常遇到例如>或者 这种HTML转义符,抓到字符串里很是烦人。
比方说一个从网页中抓到的字符串
p =‘<abc>‘
用Python可以这样处理:
import html p = ‘<abc>‘ txt= html.unescape(p) print (txt)
#这样就得到了txt= ‘<abc>‘
如果还想转回去,可以这样:
import cgi q = cgi.escape(html) print(q)
#这样又回到了 html = ‘<abc>‘