编写Python爬虫的简易流程描述

Posted 2021-02-04 观取

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了编写Python爬虫的简易流程描述相关的知识，希望对你有一定的参考价值。

　　python网络爬虫，其实就是模拟人类浏览网页的行为，并将这种行为自动化的工具。

　　从技术上来说，就是利用python代码发送特定的request请求到Web页面，最后获得response，并将response解析，提取其中的数据并存储起来。

　　开发一个爬虫程序，首先要确定目标。例如爬取拉勾网的python相关职位信息是我们的目标。根据这个目标，我们可以先使用手工的方式，访问拉勾网，搜索python相关职位，从而对如何从页面获取所需信息有一个直观的理解。

　　其次，可以使用浏览器自带的开发者工具、抓包工具，对我们发出的请求和接受到的响应进行分析，找出在访问该URL时，浏览器是如何构建request的，使用了哪些参数等，然后对接收到的response进行分析，分析网址是如何响应我们的请求的，是返回HTML，还是返回JSON格式的数据，还是使用Ajax更新页面内容等，并response为依据定位我们需要的信息是属于什么元素的。

　　最后，我们需要思考在获取到所需信息后，如何存储这些信息，是使用文本的方式进行存储，还是存储在数据库里等等。

　　简而言之，编写一个爬虫的简易流程如下：

确定爬虫目标
构建request（请求）
获得response（响应）
解析response，得到数据
存储数据

以上是关于编写Python爬虫的简易流程描述的主要内容，如果未能解决你的问题，请参考以下文章