Python3.x：BeautifulSoup()解决中文乱码问题

Posted 2020-10-21 整合侠

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python3.x：BeautifulSoup()解决中文乱码问题相关的知识，希望对你有一定的参考价值。

Python3.x：BeautifulSoup()解决中文乱码问题

问题：

　　BeautifulSoup获取网页内容，中文显示乱码；

解决方案：

import requests
from bs4 import BeautifulSoup

html = requests.get(url, headers=Hostreferer)
soup = BeautifulSoup(html.content, "html.parser", fromEncoding="gb18030")

　　如果中文页面编码是gb2312，gbk，在BeautifulSoup构造器中传入fromEncoding="gb18030"参数即可解决乱码问题，

　　即使分析的页面是utf8的页面使用gb18030也不会出现乱码问题；

以上是关于Python3.x：BeautifulSoup()解决中文乱码问题的主要内容，如果未能解决你的问题，请参考以下文章

Python3.x的BeautifulSoup解析html常用函数

Python3.X BeautifulSoup([your markup], "lxml") markup_type=markup_type))的解决方案

python3 爬虫（urllib+beautifulsoup）beautifulsoup自动检测编码错误

《Python网络数据采集》笔记之BeautifulSoup

Python3.X爬虫

Python——各类库的安装（持续更新）