如何自动识别爬虫网页的编码

Posted 2022-08-10 herosunly

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何自动识别爬虫网页的编码相关的知识，希望对你有一定的参考价值。

最近好朋友接到一项新任务，就是要爬取不同的数据源，并从中提取中重要信息。这项任务刚开始不久，就遇到了一个老大难问题，即部分网站的编码是无法确定的，这就导致无法对数据进行解析。也就谈不上后续的信息提取了。由于时间紧，任务重，在他的恳求之下，最终决定拿出自己的爬虫神技来助他一臂之力。

。

文章目录

1. 搭建Python环境
2. 安装库
3. 实战案例

1. 搭建Python环境

这部分内容主要是方便新手，老手可直接跳过。

首先需要搭建好Python环境，最简单的方法是在清华软件镜像站下载anaconda并进行安装。清华软件镜像站的官网链接为：https://mirrors.tuna.tsinghua.edu.cn

点击选择anaconda，如下图所示：

以上是关于如何自动识别爬虫网页的编码的主要内容，如果未能解决你的问题，请参考以下文章

网络爬虫在爬取网页时，响应头没有编码信息...如何解决保存在本地的乱码问题？

java爬虫一段话里的部分字符乱码解决

一日神技：最快30秒写出一个异步加载爬虫

如何解决用 Beautiful Soup 抓取网页却得到乱码的问题

python爬虫抓下来的网页，中间的中文乱码怎么解决

Python爬虫2-检测编码（使用chardet）