python爬虫对于gb2312

Posted 2020-09-09

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python爬虫对于gb2312相关的知识，希望对你有一定的参考价值。

对于刚刚接触python爬虫的人，常常会碰到一个比较烦的问题，

如果网页是GB2312编码格式，我们直接decode（’GB2312‘）一般python都会报错：

GB2312不能编码该页面。

这就比较奇怪了

<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />

网页的charset明明是GB2312，却出错了。

事实上微软将 gb2312 和 gbk 统一映射为 gb18030，这个问题也比较无语大家可以参考：

http://powerelite.blog.163.com/blog/static/429658912014394820777/

以上是关于python爬虫对于gb2312的主要内容，如果未能解决你的问题，请参考以下文章

Python爬虫（学习准备）

使用python进行URL编码，爬虫时解决参数乱码的问题

python爬虫 ----文章爬虫（合理处理字符串中的 ........）

python写爬虫时的编码问题解决方案

Python爬虫初学-urllib3

python爬虫，使用BeautifulSoup模块爬取人民网新链接，标题，时间