如何自动识别爬虫网页的编码
Posted herosunly
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何自动识别爬虫网页的编码相关的知识,希望对你有一定的参考价值。
最近好朋友接到一项新任务,就是要爬取不同的数据源,并从中提取中重要信息。这项任务刚开始不久,就遇到了一个老大难问题,即部分网站的编码是无法确定的,这就导致无法对数据进行解析。也就谈不上后续的信息提取了。由于时间紧,任务重,在他的恳求之下,最终决定拿出自己的爬虫神技来助他一臂之力。
。
文章目录
1. 搭建Python环境
这部分内容主要是方便新手,老手可直接跳过。
首先需要搭建好Python环境,最简单的方法是在清华软件镜像站下载anaconda并进行安装。清华软件镜像站的官网链接为:https://mirrors.tuna.tsinghua.edu.cn
点击选择anaconda,如下图所示:
以上是关于如何自动识别爬虫网页的编码的主要内容,如果未能解决你的问题,请参考以下文章
网络爬虫在爬取网页时,响应头没有编码信息...如何解决保存在本地的乱码问题?