Python3.x:BeautifulSoup()解决中文乱码问题

Posted 整合侠

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python3.x:BeautifulSoup()解决中文乱码问题相关的知识,希望对你有一定的参考价值。

Python3.x:BeautifulSoup()解决中文乱码问题

问题:

  BeautifulSoup获取网页内容,中文显示乱码;

解决方案:

import requests
from bs4 import BeautifulSoup

html = requests.get(url, headers=Hostreferer)
soup = BeautifulSoup(html.content, "html.parser", fromEncoding="gb18030")

  如果中文页面编码是gb2312,gbk,在BeautifulSoup构造器中传入fromEncoding="gb18030"参数即可解决乱码问题,

  即使分析的页面是utf8的页面使用gb18030也不会出现乱码问题;

 

以上是关于Python3.x:BeautifulSoup()解决中文乱码问题的主要内容,如果未能解决你的问题,请参考以下文章

Python3.x的BeautifulSoup解析html常用函数

Python3.X BeautifulSoup([your markup], "lxml") markup_type=markup_type))的解决方案

python3 爬虫(urllib+beautifulsoup)beautifulsoup自动检测编码错误

《Python网络数据采集》笔记之BeautifulSoup

Python3.X爬虫

Python——各类库的安装(持续更新)