Python Scrapy爬虫（上）

Posted 2020-11-24 石斛

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python Scrapy爬虫（上）相关的知识，希望对你有一定的参考价值。

Python Scrapy爬虫

预备知识：

1、Scrapy框架：是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架。

2、Scrapy去重原理：Scrapy本身自带有一个中间件。scrapy源码中可以找到一个dupefilters.py去重器，需要将dont_filter设置为False开启去重，默认是True，没有开启去重。

3、指纹去重：对于每一个URL的请求，调度器都会根据请求得相关信息加密得到一个指纹信息，并且将该URL的指纹信息和set()集合中的指纹信息进行比对。如果set()集合中已经存在这个数据，就不在将这个Request放入队列中，如果set()集合中没有存在这个加密后的数据，就将这个Request对象放入队列中，等待被调度。

4、Scrapy框架下各个模块：

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等
Scheduler(调度器): 假设其为一个URL的优先队列，由其来决定下一个要抓取的网址是什么，同时去除重复的网址。用户可以自己的需求定制调度器
Downloader（下载器）：用于高速地下载网络上的资源。Scrapy的下载器代码不会太复杂，但效率高，主要的原因是Scrapy下载器是建立在twisted这个高效的异步模型上
Spider（爬虫）：用户定制自己的爬虫，用于从特定的网页中提取需要的信息，即所谓的实体(Item)。用户也可以从中提取出链接（URL），让Scrapy继续抓取下一个页面。
Item Pipeline(实体管道)：用于处理爬虫提取的实体。主要的功能是持久化实体、验证实体的有效性、清除不需要的信息
Downloader Middlewares（下载中间件/有User_Agent、Proxy代理）：可以当作是一个可以自定义扩展下载功能的组件
Spider Middlewares（Spider中间件）：可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

图-1 scrapy框架

以上是关于Python Scrapy爬虫（上）的主要内容，如果未能解决你的问题，请参考以下文章

Python爬虫实战，Scrapy实战，大众点评爬虫

python scrapy简单爬虫记录(实现简单爬取知乎)

python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提升爬取效率,请求传参(meta),五大核心组件,中间件

python网络爬虫之使用scrapy自动爬取多个网页

【scrapy爬虫实战】Discuz 论坛版块全部帖子信息爬取

Python爬虫 ---scrapy框架初探及实战