python爬虫对于gb2312
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫对于gb2312相关的知识,希望对你有一定的参考价值。
对于刚刚接触python爬虫的人,常常会碰到一个比较烦的问题,
如果网页是GB2312编码格式,我们直接decode(’GB2312‘)一般python都会报错:
GB2312不能编码该页面。
这就比较奇怪了
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
网页的charset明明是GB2312,却出错了。
事实上微软将 gb2312 和 gbk 统一映射为 gb18030,这个问题也比较无语大家可以参考:
http://powerelite.blog.163.com/blog/static/429658912014394820777/
以上是关于python爬虫对于gb2312的主要内容,如果未能解决你的问题,请参考以下文章