scrapy基本知识

Posted 2020-12-12 kongrui

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了scrapy基本知识相关的知识，希望对你有一定的参考价值。

1. Scrapy使用了Twisted异步网络库来处理网络通讯，整体架构：

技术图片

Scrapy爬虫框架主要由5个部分组成，分别是：Scrapy Engine（Scrapy引擎），Scheduler（调度器），Downloader（下载器），Spiders（蜘蛛），Item Pipeline（项目管道）。爬取过程是Scrapy引擎发送请求，之后调度器把初始URL交给下载器，然后下载器向服务器发送服务请求，得到响应后将下载的网页内容交与蜘蛛来处理，尔后蜘蛛会对网页进行详细的解析。
蜘蛛分析的结果有两种：一种是得到新的URL，之后再次请求调度器，开始进行新一轮的爬取，不断的重复上述过程；另一种是得到所需的数据，之后会转交给项目管道继续处理。项目管道负责数据的清洗、验证、过滤、去重和存储等后期处理，最后由Pipeline输出到文件中，或者存入数据库等。

scrapy startproject XXX可以产生一个项目

以上是关于scrapy基本知识的主要内容，如果未能解决你的问题，请参考以下文章