scrapy的url去重设置

Posted 2023-03-04

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了scrapy的url去重设置相关的知识，希望对你有一定的参考价值。

参考技术A 是这样的，我想抓取页面更新的东西，
我在spider里写了一个parse方法，用sleep（300），每隔5分钟再爬一次，
我在这个方法加上一句，yield Request(url=response.url,callback=self.parse),这样来实现循环调用这个方法，可是scrapy默认的去重机制让这个循坏失败。
所以这里函数内加上一个参数

即可。

以上是关于scrapy的url去重设置的主要内容，如果未能解决你的问题，请参考以下文章

crapy 去重与 scrapy_redis 去重与布隆过滤器

scrapy暂停和重启，及url去重原理

.去重url，爬取和去重分离

scrapy-redis数据去重与分布式框架

scrapy的去重机制

爬虫去重策略