爬虫日记(66):Scrapy的设置参数-抓取风格

Posted caimouse

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫日记(66):Scrapy的设置参数-抓取风格相关的知识,希望对你有一定的参考价值。

Scrapy允许我们采用不同的风格来抓取网页。针对不同的需求,需要采用不同的抓取方式。比如我们去抓取小说网站的时候,就需要采用深度优先的方式,因为一部小说是一章接着一章更新下去的,所以同一时间更新的很少。但是当我们去抓取新闻网站时,就不能这样做了,因为新闻网站都会把最新的新闻放在每一个页面的最前面,这时应该采用广度优先的方法,可以采用下面的设置:

# 先进先出,广度优先

DEPTH_PRIORITY = 1

SCHEDULER_DISK_QUEUE = \'scrapy.squeues.PickleFifoDiskQueue\'

SCHEDULER_MEMORY_QUEUE = \'scrapy.squeues.FifoMemoryQueue\'

这样的参数设置就修改为广度优先的原则。

 

如果想限制深度层次,可以设置参数DEPTH_LIMIT。如果不想限制深度,就把这个参数设置为0。

 

以上是关于爬虫日记(66):Scrapy的设置参数-抓取风格的主要内容,如果未能解决你的问题,请参考以下文章

爬虫日记(65):Scrapy的设置参数-Telnet

爬虫日记(64):Scrapy的设置参数-统计分析

爬虫日记(84):Scrapy的Crawler类

爬虫日记(86):Scrapy的Scheduler类

爬虫日记(76):Scrapy的命令行源码分析

爬虫日记(83):Scrapy的CrawlerProcess类