爬虫日记(90):Scrapy的HTTP11DownloadHandler类

Posted caimouse

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫日记(90):Scrapy的HTTP11DownloadHandler类相关的知识,希望对你有一定的参考价值。

在爬虫里,使用最多的下载机制,还是HTTP协议,因此这个协议的实现就非常关键了,也是一个比较复杂的实现,要读懂这个类要比较费时间和精力。虽然比较复杂,我们还是一步一步地去分析这些代码实现,以便我们可以自己实现HTTP协议,或者修改HTTP协议,又或者整个这部分源码自己的工程。

在scrapy引入这个类,并不是直接以这个类的名称,而是改为别名HTTPDownloadHandler,如下所示:

 因此下载HTTP/HTTPS协议的时候,就是调用HTTP11DownloadHandler类。

接着下来,我们就来先看看这个类的构造函数:

以上是关于爬虫日记(90):Scrapy的HTTP11DownloadHandler类的主要内容,如果未能解决你的问题,请参考以下文章

爬虫日记(86):Scrapy的Scheduler类

爬虫日记(89):Scrapy的DownloadHandlers类

爬虫日记(88):Scrapy的Downloader类

爬虫日记(92):Scrapy的下载结果回应分析

爬虫日记(80):Twisted的循环任务

爬虫日记(63):Scrapy的设置参数-日志