python爬虫中文乱码解决方法

Posted Sure_Cheun

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫中文乱码解决方法相关的知识,希望对你有一定的参考价值。

python爬虫中文乱码

前几天用python来爬取全国行政区划编码的时候,遇到了中文乱码的问题,折腾了一会儿,才解决。现特记录一下,方便以后查看。

我是用python的requests和bs4库来实现爬虫,这两个库的简单用法可参照python爬取当当网的书籍信息并保存到csv文件

乱码未处理前部分代码

   url = \'要爬取的网页\'
    r = requests.get(url, timeout=30)
    soup = BeautifulSoup(r.text, \'lxml\')

乱码原因

我爬取的网页使用的编码是GBK。所以要按GBK编码,才能避免中文乱码。

解决乱码的代码

   url = \'要爬取的网页\'
    r = requests.get(url, timeout=30)
    r.encoding=\'GBK\'   #增加encoding=‘GBK’,解决中文乱码问题
    soup = BeautifulSoup(r.text, \'lxml\')

【原创声明】转载请标明出处:https://www.cnblogs.com/surecheun/p/9694052.html

以上是关于python爬虫中文乱码解决方法的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫抓取到的数据用网页打开时是乱码,怎么解决

网络爬虫在爬取网页时,响应头没有编码信息...如何解决保存在本地的乱码问题?

python爬虫抓下来的网页,中间的中文乱码怎么解决

Python 爬虫数据写入csv文件中文乱码解决以及天眼查爬虫数据写入csv

Python爬虫中文小说网点查找小说并且保存到txt(含中文乱码处理方法)

python爬虫中文乱码问题