scrapy gbk编码解析失败的问题

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy gbk编码解析失败的问题相关的知识,希望对你有一定的参考价值。

在使用scrpay 采集网易游戏网页时,遇到了编码失败的问题

http://play.163.com/17/0520/15/CKT0U63D00318PFI.html

code_datas = byte.decode(‘gbk‘)  

这里的‘gbk‘编码解析失败,查询原因得知,中文有三大编码,后面的标准是前面标准的扩展。


GB2312 < GBK < GB18030

将命令换成 code_datas = byte.decode(‘GB18030‘)

后解析正常。

以上是关于scrapy gbk编码解析失败的问题的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫把url链接编码成gbk2312格式过程解析

从 XML 声明片段获取 XML 编码:部分内容解析不支持 XmlDeclaration

maven异常解决:编码GBK的不可映射字符

GBK编码具体解析(附GBK码位分布图)

采集页面编码GBK处理注意的问题

使用非utf-8编码在Python中解析XML