爬虫日记(88):Scrapy的Downloader类

Posted caimouse

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫日记(88):Scrapy的Downloader类相关的知识,希望对你有一定的参考价值。

从前面的分析我们知道,当下载的连接URL去重之后,就需要把URL放到下载器里进行下载,这样才会得到网页相关的数据,比如html、图片、脚本等等。然后我们根据网页再来抽取相关的数据,或者获得图片。接着下来,我们更进一步地来了解下载器是怎么样把URL的内容获取回来,明白整个数据取得的过程,对于我们了解爬虫过程也是有重要意义的。

从下图就可以了解整个下载器的初始化过程:

先从引擎的构造函数里进行初始化,它是从缺省的配置文件里加载参数DOWNLOADER,而这个参数里保存的是scrapy.core.downloader.Downloader,也就是下面的包目录:

以上是关于爬虫日记(88):Scrapy的Downloader类的主要内容,如果未能解决你的问题,请参考以下文章

爬虫日记(88):Scrapy的Downloader类

爬虫日记(63):Scrapy的设置参数-日志

爬虫日记(73):Scrapy程序运行入口点分析

爬虫日记(75):Scrapy的Settings源码分析

爬虫日记(74):Scrapy项目配置参数源码分析(二)

爬虫日记(76):Scrapy的命令行源码分析二