Python爬虫编程思想(158):Scrapy中的下载器中间件

Posted 蒙娜丽宁

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫编程思想(158):Scrapy中的下载器中间件相关的知识,希望对你有一定的参考价值。

        Scrapy允许使用中间件干预数据的抓取过程,以及完成其他数据处理工作。其中一类非常重要的中间件就是下载器中间件。下载器中间件可以对数据的下载和处理过程进行拦截。在Scrapy爬虫中,数据下载和处理分下面两步完成。

  1. 指定Web资源的Url,并向服务端发送请求。在这一步需要依赖于爬虫类的start_urls变量或start_requests方法。
  2. 当服务端相应Scrapy爬虫的请求后,就会返回响应数据,这时系统会将响应数据再交由Scrapy爬虫处理,也就是调用爬虫类的请求回调方法,如parse。

1. 核心方法

        下载器中间件可以对这两步进行拦截。当爬虫向服务端发送请求之前,会通过下载器中间件类的process_request方法进行拦截,当爬虫处理服务端响应数据之前,会通过下载器中间件类的process_response方法进行拦截。

        除了这两个方法外࿰

以上是关于Python爬虫编程思想(158):Scrapy中的下载器中间件的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫编程思想(158):Scrapy中的下载器中间件

Python爬虫编程思想(161):Scrapy中的通用爬虫

Python爬虫编程思想(161):Scrapy中的通用爬虫

Python爬虫编程思想(161):Scrapy中的通用爬虫

Python爬虫编程思想(161):Scrapy中的通用爬虫

Python爬虫编程思想(144):爬虫框架Scrapy的基础知识