ken桑带你读源码之scrapy scrapycorescheduler.py

Posted 2020-10-20 gzwwj

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了ken桑带你读源码之scrapy scrapycorescheduler.py相关的知识，希望对你有一定的参考价值。

从英文来看是调度程序我们看看是怎么调度

　　首先爬虫队列有两个一个是保存在内存中没有历史记录重新开始 42行 self.mqs = self.pqclass(self._newmq)

另外一个是存在硬盘的队列用于断点续传大家看 43 行 self._dq() if self.dqdir else None 先是判断是否有 join(jobdir, ‘requests.queue‘) 这个文件 (保存已抓取request hash)

然后获取 join(self.dqdir, ‘active.json‘) 该文件是已经塞入队列但没有抓取的url

53行 def enqueue_request 塞入队列先保存硬盘队列然后不行再保存内存队列

66行 def next_request(self): 获取队列

以上是关于ken桑带你读源码之scrapy scrapycorescheduler.py的主要内容，如果未能解决你的问题，请参考以下文章

ken桑带你读源码 之scrapy scrapycorescheduler.py