学习爬虫过程中解决下载网页乱码的问题

Posted xiaolee-tech

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了学习爬虫过程中解决下载网页乱码的问题相关的知识,希望对你有一定的参考价值。

这个问题肯定是字符的编码错乱导致的。网上也有很多解决方案。我看过的方案很多,最好的就是这个了。

https://www.sohu.com/a/289375951_420744

原因文章说得很清楚,理论也讲得明白。解决方案我录在下面。版权归原作者。

方法一:直接指定res.encoding

import requests
url = "http://search.51job.com"
res = requests.get(url)
res.encoding = "gbk"
html = res.text
print(html)

方法二:通过res.apparent_encoding属性指定

import requests
url = "http://search.51job.com"
res = requests.get(url)
res.encoding = res.apparent_encoding
html = res.text
print(html)

方法三:通过编码、解码的方式

import requests
url = "http://search.51job.com"
res = requests.get(url)
html = res.text.encode(‘iso-8859-1‘).decode(‘gbk‘)
print(html)

以上是关于学习爬虫过程中解决下载网页乱码的问题的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫抓下来的网页,中间的中文乱码怎么解决

python爬虫抓取到的数据用网页打开时是乱码,怎么解决

网络爬虫在爬取网页时,响应头没有编码信息...如何解决保存在本地的乱码问题?

node爬虫解决网页编码为gb2312结果为乱码的方法

彻底解决Python3写爬虫或网站时的乱码问题

java爬虫一段话里的部分字符乱码解决