Python爬虫系列:判断目标网页编码的几种方法

Posted 5rjscn

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫系列:判断目标网页编码的几种方法相关的知识,希望对你有一定的参考价值。

在爬取网页内容时,了解目标网站所用编码是非常重要的,本文介绍几种常用的方法,并使用几个网站进行简单测试。

技术分享图片

代码运行结果:

技术分享图片

从不同国家的几个网站测试结果来看,utf8使用的较多(对于纯英文网站,用什么方式解码没有本质区别)。但方法3和4成功率更高一些,不过速度略慢,比较好的方法是组合使用这几个方法,结合异常处理结构,优先使用方法1或2,实在不行再使用后面的方法。http://www.aibbt.com/a/18106.html

以上是关于Python爬虫系列:判断目标网页编码的几种方法的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫多次请求超时的几种重试方法

python 爬虫保存文件的几种方法

python编程获取网页标题title的几种方法及效果对比(源代码)

python编程获取网页标题title的几种方法及效果对比(源代码)

Python爬虫定时计划任务的几种常见方法

python爬虫 入门需要哪些基础