scrapy基本知识

Posted kongrui

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy基本知识相关的知识,希望对你有一定的参考价值。

1. Scrapy使用了Twisted异步网络库来处理网络通讯,整体架构:

技术图片

 

 

 

  • Scrapy爬虫框架主要由5个部分组成,分别是:Scrapy Engine(Scrapy引擎),Scheduler(调度器),Downloader(下载器),Spiders(蜘蛛),Item Pipeline(项目管道)。爬取过程是Scrapy引擎发送请求,之后调度器把初始URL交给下载器,然后下载器向服务器发送服务请求,得到响应后将下载的网页内容交与蜘蛛来处理,尔后蜘蛛会对网页进行详细的解析。
  • 蜘蛛分析的结果有两种:一种是得到新的URL,之后再次请求调度器,开始进行新一轮的爬取,不断的重复上述过程;另一种是得到所需的数据,之后会转交给项目管道继续处理。项目管道负责数据的清洗、验证、过滤、去重和存储等后期处理,最后由Pipeline输出到文件中,或者存入数据库等。

 scrapy startproject XXX可以产生一个项目

以上是关于scrapy基本知识的主要内容,如果未能解决你的问题,请参考以下文章

爬虫例子及知识点(scrapy知识点)

scrapy 基本操作

浅析Scrapy框架运行的基本流程

scrapy知识补充--scrapy shell 及Spider

Scrapy分布式爬虫实战:Scrapy基础知识

爬虫--Scrapy框架的基本使用