初探异步爬虫框架 Scrapy 及其衍生产物

Posted 2021-04-25 研发云

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了初探异步爬虫框架 Scrapy 及其衍生产物相关的知识，希望对你有一定的参考价值。

对于一些规模小、爬取数据量小、

且对爬取速度不敏感的爬虫程序来说

使用 Python 的爬虫利器 requests

就能轻松对其进行管控

但如果希望爬虫能具备

爬取失败可复盘、爬取速度较高等功能

就需要 Scrapy 来帮忙了

初探异步爬虫框架 Scrapy 及其衍生产物

Scrapy

Scrapy 是一套用 Python 所编写的非常完善的异步爬虫框架，它基于 Twisted 实现，能运行于 Linux/Windows/MacOS 等多种环境，并对爬虫进行管理、部署和监控，且具有速度快、扩展性强、使用简便等特点。Scrapy 所能实现的功能包括内存检测、对象引用查看、命令行、shell 终端，还有各种中间件和扩展等。

Scrapy 各架构组件的作用

Scheduler：调度器。负责接受 Engine 发送过来的 requests 请求，并将其队列化；

Item Pipeline：Item Pipeline负责处理被 Spider 提取出来的 item，如清理 html 数据、验证爬取的数据（检查 item 包含哪些字段）、查重（并丢弃）、爬取数据持久化（存入数据库、写入文件等）；

Scrapy Engine：引擎是 Scrapy 的中枢。它负责控制数据流在系统所有组件中流动，并在相应动作发生时触发事件；

Downloader Middlewares：下载中间件是 Engine 和下载器的枢纽。负责处理下载器传递给 Engine 的 responses，它支持自定义扩展；

Downloader：下载器。负责下载 Engine 发送的所有 requests 请求，并将其获取到的 responses 回传给 Scrapy Engine；

Spider middlewares：Spider 中间件是 Engine 和 Spider 的连接桥梁；它支持自定义扩展来处理 Spider 的输入（responses）以及输出 item 和 requests 给 Engine ；

Spiders：负责解析 responses 并提取 Item 字段需要的数据，再将需要跟进的 URL 提交给引擎，再次进入调度器。

初探异步爬虫框架 Scrapy 及其衍生产物