彻底解决Python3写爬虫或网站时的乱码问题
Posted pozhu15
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了彻底解决Python3写爬虫或网站时的乱码问题相关的知识,希望对你有一定的参考价值。
第一次写贴子,文笔差,写的不清楚的地方请见谅
很多玩Python3的都会遇到编码问题,如果直接去处理未知编码的网页,不是utf8格式会出现乱码,下面介绍一种将未知编码的字串转换为utf8来避免乱码的方法,
在很多Python编码转换的场景中都可以使用
自己写的爬虫里提取的部分:
#请求网页并转网页编码 def gethtmlAndDealCode(url): #html=requests.get(url,verify=False) html = s.get(url,headers=header) code=html.encoding html=html.text html=html.encode(code) html=html.decode(‘utf-8‘) parser = ‘html.parser‘ soup = BeautifulSoup(html ,parser) return soup
原理就是通过 encoding 得到字串编码 再通过encode解这种编码,decode(‘utf-8‘)将编码转换为utf8编码,然后就可以进行后面的处理了
是不是简单又实用啊
以上是关于彻底解决Python3写爬虫或网站时的乱码问题的主要内容,如果未能解决你的问题,请参考以下文章
python3爬虫中文乱码之请求头‘Accept-Encoding’:br 的问题