Python 网络爬虫程序架构及运行流程

Posted 2020-11-26 躬耕南阳

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python 网络爬虫程序架构及运行流程相关的知识，希望对你有一定的参考价值。

1 前言

Python开发网络爬虫获取网页数据的基本流程为：

发起请求

通过URL向服务器发起request请求，请求可以包含额外的header信息。

获取响应内容

服务器正常响应，将会收到一个response，即为所请求的网页内容，或许包含HTML，Json字符串或者二进制的数据（视频、图片）等。

解析内容

如果是HTML代码，则可以使用网页解析器进行解析，如果是Json数据，则可以转换成Json对象进行解析，如果是二进制的数据，则可以保存到文件做进一步处理。

保存数据

可以保存到本地文件，也可以保存到数据库（MySQL，Redis，MongoDB等）。

网络爬虫程序框架主要包括以下五大模块：

五大模块功能如下所示：

网络爬虫程序框架的动态运行流程如下所示：

本文简要介绍了Python开发网络爬虫的程序框架，将网络爬虫运行流程按照具体功能划分为不同模块，以便各司其职、协同运作。搭建好网络爬虫框架后，能够有效地提高我们开发网络爬虫项目的效率，避免一些重复造车轮的工作。

以上是关于Python 网络爬虫程序架构及运行流程的主要内容，如果未能解决你的问题，请参考以下文章