爬虫日记(61)：Scrapy的数据去重处理管道

Posted 2021-05-19 caimouse

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫日记(61)：Scrapy的数据去重处理管道相关的知识，希望对你有一定的参考价值。

在开发爬虫的过程中，经常会遇到有很多数据是重复的，那么这些重复的数据，我们只需要其中一条就可以了，并不需要全部进行保存，这个过程就叫做去重处理。这样做不仅可以节省处理时间，还可以节省大量储存空间。

在Scrapy里去重是比较简单的，如果数据不大可以使用set集合就可以解决，如果比较大的可以使用数据库的方式去重。这里主要介绍使用set集合的方法来去重，因此先要定义一个管道类：

class AuthorDupPipeline:

def __init__(self):

self.authors = set()

def process_item(self, item, spider):

adapter = ItemAdapter(item)

if adapter.get(\'author\') in self.authors:

以上是关于爬虫日记(61)：Scrapy的数据去重处理管道的主要内容，如果未能解决你的问题，请参考以下文章