4.爬虫去重策略

Posted chenxi188

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了4.爬虫去重策略相关的知识,希望对你有一定的参考价值。

技术图片

第1种,太麻烦,不常用

第2种,当1亿条url时,占用内存过大,达9G

第3种,是第2种的优化,scrapy 用的即是第3种方法,可成倍减少内存占用,且不会重复

第4种,会大幅节省内存,1亿条url,占用空间:12M。但会出现冲突,把多个url算到一个位上去

第5种,是对4条的优化,减少冲突

以上是关于4.爬虫去重策略的主要内容,如果未能解决你的问题,请参考以下文章

爬虫去重策略

第四篇 爬虫去重策略,以及编码问题

基于Redis的三种分布式爬虫策略

python学习笔记——爬虫的抓取策略

爬虫实现原理与实现技术

python scrapy