python爬虫对于gb2312

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫对于gb2312相关的知识,希望对你有一定的参考价值。

对于刚刚接触python爬虫的人,常常会碰到一个比较烦的问题,

如果网页是GB2312编码格式,我们直接decode(’GB2312‘)一般python都会报错:

GB2312不能编码该页面。

这就比较奇怪了

<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />

网页的charset明明是GB2312,却出错了。

事实上微软将 gb2312 和 gbk 统一映射为 gb18030,这个问题也比较无语大家可以参考:

 

http://powerelite.blog.163.com/blog/static/429658912014394820777/

以上是关于python爬虫对于gb2312的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫(学习准备)

使用python进行URL编码,爬虫时解决参数乱码的问题

python爬虫 ----文章爬虫(合理处理字符串中的 ........)

python写爬虫时的编码问题解决方案

Python爬虫初学-urllib3

python爬虫,使用BeautifulSoup模块爬取人民网新链接,标题,时间