爬虫日记(66):Scrapy的设置参数-抓取风格
Posted caimouse
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫日记(66):Scrapy的设置参数-抓取风格相关的知识,希望对你有一定的参考价值。
Scrapy允许我们采用不同的风格来抓取网页。针对不同的需求,需要采用不同的抓取方式。比如我们去抓取小说网站的时候,就需要采用深度优先的方式,因为一部小说是一章接着一章更新下去的,所以同一时间更新的很少。但是当我们去抓取新闻网站时,就不能这样做了,因为新闻网站都会把最新的新闻放在每一个页面的最前面,这时应该采用广度优先的方法,可以采用下面的设置:
# 先进先出,广度优先
DEPTH_PRIORITY = 1
SCHEDULER_DISK_QUEUE = \'scrapy.squeues.PickleFifoDiskQueue\'
SCHEDULER_MEMORY_QUEUE = \'scrapy.squeues.FifoMemoryQueue\'
这样的参数设置就修改为广度优先的原则。
如果想限制深度层次,可以设置参数DEPTH_LIMIT。如果不想限制深度,就把这个参数设置为0。
以上是关于爬虫日记(66):Scrapy的设置参数-抓取风格的主要内容,如果未能解决你的问题,请参考以下文章