Python爬虫系列：判断目标网页编码的几种方法

Posted 2020-10-26 5rjscn

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python爬虫系列：判断目标网页编码的几种方法相关的知识，希望对你有一定的参考价值。

在爬取网页内容时，了解目标网站所用编码是非常重要的，本文介绍几种常用的方法，并使用几个网站进行简单测试。

技术分享图片

代码运行结果：

技术分享图片

从不同国家的几个网站测试结果来看，utf8使用的较多（对于纯英文网站，用什么方式解码没有本质区别）。但方法3和4成功率更高一些，不过速度略慢，比较好的方法是组合使用这几个方法，结合异常处理结构，优先使用方法1或2，实在不行再使用后面的方法。http://www.aibbt.com/a/18106.html

以上是关于Python爬虫系列：判断目标网页编码的几种方法的主要内容，如果未能解决你的问题，请参考以下文章

python爬虫多次请求超时的几种重试方法

python 爬虫保存文件的几种方法

python编程获取网页标题title的几种方法及效果对比（源代码）

Python爬虫定时计划任务的几种常见方法

python爬虫入门需要哪些基础