在爬取网页内容时,了解目标网站所用编码是非常重要的,本文介绍几种常用的方法,并使用几个网站进行简单测试。
代码运行结果:
从不同国家的几个网站测试结果来看,utf8使用的较多(对于纯英文网站,用什么方式解码没有本质区别)。但方法3和4成功率更高一些,不过速度略慢,比较好的方法是组合使用这几个方法,结合异常处理结构,优先使用方法1或2,实在不行再使用后面的方法。http://www.aibbt.com/a/18106.html
Posted 5rjscn
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫系列:判断目标网页编码的几种方法相关的知识,希望对你有一定的参考价值。
在爬取网页内容时,了解目标网站所用编码是非常重要的,本文介绍几种常用的方法,并使用几个网站进行简单测试。
代码运行结果:
从不同国家的几个网站测试结果来看,utf8使用的较多(对于纯英文网站,用什么方式解码没有本质区别)。但方法3和4成功率更高一些,不过速度略慢,比较好的方法是组合使用这几个方法,结合异常处理结构,优先使用方法1或2,实在不行再使用后面的方法。http://www.aibbt.com/a/18106.html
以上是关于Python爬虫系列:判断目标网页编码的几种方法的主要内容,如果未能解决你的问题,请参考以下文章
python编程获取网页标题title的几种方法及效果对比(源代码)