python爬虫怎么去重清洗

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫怎么去重清洗相关的知识,希望对你有一定的参考价值。

参考技术A 这个得根据具体情况来看。
我给你提个思路,把爬到的全部数据先用一个变量接收,然后用set()工厂函数把数据转为集合(因为集合是无序且不重复的)并赋值给变量,这样就去重了,详细的只有按实际情况来了

python - scrapy 爬虫框架(创建, 持久化, 去重, 深度, cookie)

## scrapy 依赖 twisted
  - twisted 是一个基于事件循环的 异步非阻塞 框架/模块

 

##  项目的创建 

1. 创建 project
    scrapy  startproject  项目名称
   
    项目名称(项目结构)
        - spiders    # 爬虫文件
            - q.py
            - w.py
        - items.py         # 持久化
        - pipelines         # 持久化
        - middlewares.py   # 中间件
        - settings.py    # 配置文件(爬虫)
    scrapy.cfg    # 配置文件(部署)

2. 创建爬虫
    cd 项目名称
   
    scrapy genspider  q  q.com
    scrapy genspider  w  w.com

3. 启动爬虫
    scrapy crawl  q --nolog   # 不查看日志
    scrapy crawl  w              # 默认查看日志

 

## pipeline 做持久化

    - pipeline 是所有爬虫公用的,如果想要给某个爬虫制定需要使用 spider 参数进行判断处理:
      if spider.name == ‘xxx‘

1. 自定义的爬虫文件中 将每次获取到的数据 传给 ScrapyDeom1Item 类方法
for item in item_list:
    href = item.xpath(.//a/@href).extract_first()
    txt = item.xpath(.//a/text()).extract_first()
    yield ScrapyDeom1Item(text=txt, href=href)

2. items 中 ScrapyDeom1Item 类方法 将需要存储的数据接收到。
class ScrapyDeom1Item(scrapy.Item):
    href = scrapy.Field()
    text = scrapy.Field()

3. settings 中定义做持久化的类( ScrapyDeom1Pipeline ) 和 定义一个文件路径
ITEM_PIPELINES = {
   scrapy_deom1.pipelines.ScrapyDeom1Pipeline: 300,
       # 文件路径                       # 优先级( 1-1000 )
}
PATH = new.log

4. 到 pipelines.py 文件中 找到 ScrapyDeom1Pipeline 类并做持久化
from scrapy.exceptions import DropItem
class ScrapyDeom1Pipeline(object):

    def __init__(self, path):  # 初始化定义文件操作 和 文件要保存的路径
        self.f = None
        self.path = path

    @classmethod
    def from_crawler(cls, crawler):
        """
        初始化的时候,用来创建 pipeline 对象
        :param crawler:
        :return:
        """
        # 去settings 寻找要保存的文件路径
        path = crawler.settings.get(PATH)
        return cls(path)

    def open_spider(self, spider):
        """
        爬虫刚启动时调用 - 此处用来做打开文件操作
        :param spider:
        :return:
        """
        self.f = open(self.path, a+)

    def process_item(self, item, spider):
        """
        爬虫执行中调用 - 此处用来做将数据写入文件 操作
        :param item:
        :param spider:
        :return:
        """
        self.f.write(item[href]+
)
        # raise DropItem()   # 抛出异常,使后续的 pipeline 的 process_item 方法不执行
        return item    # 这个 item 是要返回给下个类的

    def close_spider(self, spider):
        """
        爬虫执行完毕后调用 - 此处用来做关闭文件操作
        :param spider: 
        :return: 
        """
        self.f.close()

 

## 去重

1. 创建一个 dupefilters.py 文件(用于做去重操作):
from scrapy.dupefilters import BaseDupeFilter
from scrapy.utils.request import request_fingerprint


class MyDupeFilter(BaseDupeFilter):

    def __init__(self):
        self.visited_fd = set()

    @classmethod
    def from_settings(cls, settings):
        return cls()

    def request_seen(self, request):
        """
        判断当前请求的URL是否存在 - 用于去重
            - 如果存在则  pass
            - 如不存在则  添加
        :param request:
        :return:
        """
        # 将当前 URL 加密成一定位数的字符
        print(request)
        fd = request_fingerprint(request=request)
        if fd in self.visited_fd:
            return True
        self.visited_fd.add(fd)

    def open(self):  # can return deferred
        """
        执行前的一些操作
        :return:
        """
        print(爬虫开始)

    def close(self, reason):  # can return a deferred
        """
        执行结束后的一些操作
        :param reason:
        :return:
        """
        print(爬虫结束)

    def log(self, request, spider):  # log that a request has been filtered
        """
        访问的每一个  URL  的日志信息
        :param request:
        :param spider:
        :return:
        """
        pass


2. settings 中注册这个类
DUPEFILTER_CLASS = scrapy_demo1.dupefilters.MyDupeFilter

3. 可以设置是否使用当前定义的去重方法
# True 表示不使用 
# False 表示使用 (默认为False)
yield Request(url=page, callback=self.parse, dont_filter=True)

 

##  限制深度查询

配置文件中(settings):
DEPTH_LIMIT = 3  # 查询深度设置为三层

 

##  Cookie

from scrapy.http.cookies import CookieJar
cookie_dict = {}
# 去对象中将cookie解析到字典
        for k, v in cookie_jar._cookies.items():
            for i, j in v.items():
                for m, n in j.items():
                    self.cookie_dict[m] = n.value

 

以上是关于python爬虫怎么去重清洗的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫——对爬到的数据进行清洗的一些姿势

Python爬虫数据应该怎么处理

爬虫+数据清洗+可视化用Python分析“淄博烧烤“的评论数据

Python 爬虫 大量数据清洗 ---- sql语句优化

Python爬虫怎么挣钱?6个Python爬虫赚钱方式,搞搞副业不是问题

Python爬虫怎么挣钱?6个Python爬虫赚钱方式,搞搞副业不是问题