爬虫rewquests爬去网页乱码问题
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫rewquests爬去网页乱码问题相关的知识,希望对你有一定的参考价值。
requests在爬取网页时候时候中文显示乱码
import requests url = ‘http://www.neihan8.com/wenzi/index_2.html‘ res = requests.get(url)
res.encoding #获取res的编码格式
res.headers #获取Content-Type内容
res.apparent_encoding #获取网页正确的编码格式 html = res.text# 返回的结果是处理过的Unicode类型的数据 print(res)
print(res.encoding)#获得网页源码的格式 打印显示 ISO-8859-1
第一个问题是,为什么会有ISO-8859-1这样的字符集编码?
iso-8859是什么? 他又被叫做Latin-1或“西欧语言” . 对于我来说,这属于requests的一个bug,在requests库的github里可以看到不只是中国人提交了这个issue. 但官方的回复说是按照http rfc设计的。
下面通过查看requests源代码,看这问题是如何造成的 !
requests会从服务器返回的响应头的 Content-Type 去获取字符集编码,如果content-type有charset字段那么requests才能正确识别编码,否则就使用默认的 ISO-8859-1. 一般那些不规范的页面往往有这样的问题. 现在一般的Content-Type 是‘text/html‘。所以现在一般读取源码以后都是用‘ html = res.text‘ 格式读取。但是也可用通过html = res.content来获取返回的源码。
第二个问题, 那么如何获取正确的编码?
requests的返回结果对象里有个apparent_encoding函数, apparent_encoding通过调用chardet.detect()来识别文本编码. 但是需要注意的是,这有些消耗计算资源.
至于为毛,可以看看chardet的源码实现.
第三个问题,requests的text() 跟 content() 有什么区别?
requests在获取网络资源后,我们可以通过两种模式查看内容。 一个是res.text,另一个是res.content,那他们之间有什么区别呢?
分析requests的源代码发现,res.text返回的是处理过的Unicode型的数据,而使用res.content返回的是bytes型的原始数据。也就是说,res.content相对于res.text来说节省了计算资源,res.content是把内容bytes返回. 而res.text是decode成Unicode. 如果headers没有charset字符集的话,text()会调用chardet来计算字符集,这又是消耗cpu的事情.
requests中文乱码解决方法有这么几种
1、由于content是HTTP相应的原始字节串,可以根据headers头部的charset把content decode为unicode,前提别是ISO-8859-1编码.
r.encoding # ‘gbk‘ print r.content.decode(r.encoding)
2、另外有一种特别粗暴方式,就是直接根据chardet的结果来encode成utf-8格式.
r = requests.get(‘http://item.jd.com/1012551875.html‘) r.apparent_encoding # ‘GB2312‘ r.encoding # ‘gbk‘ r.content.decode(r.encoding).encode(‘utf-8‘)# 问题 r.encoding和r.apparent_encoding什么区别????
如果在确定使用text,并已经得知该站的字符集编码时,可以使用 r.encoding = ‘xxx’ 模式, 当你指定编码后,requests在text时会根据你设定的字符集编码进行转换.
>>> import requests >>> r = requests.get(‘https://up.xiaorui.cc‘) >>> r.text >>> r.encoding ‘gbk‘ >>> r.encoding = ‘utf-8‘
以上是关于爬虫rewquests爬去网页乱码问题的主要内容,如果未能解决你的问题,请参考以下文章
网络爬虫在爬取网页时,响应头没有编码信息...如何解决保存在本地的乱码问题?