Spider

Posted 2020-12-15 nuochengze

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spider相关的知识，希望对你有一定的参考价值。

1、官方文档

　　https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spiders.html

2、Spider简介

　　Spider类定义了如何爬取某个（或某些）网站。包括爬取的动作（例如：是否跟进链接）以及如何从网页的内容中提取结构化数据（爬取item）。

　　`scrapy.Spider`是最基本的类，所有编写的爬虫必须继承这个类。

　　主要用到的函数及调用顺序为：

　　（1）`__init__()`：初始化爬虫名字和start_urls列表

　　（2）`start_requests()`：调用make_requests_from_url()：生成Requests对象交给Scrapy下载并返回response

　　（3）`parse()`：解析response，并返回Item或Requests（需要指定回调函数）。Item传给Item Pipeline持久化，而Requests交由Scrapy下载，并由指定的回调函数处理（默认parse()），一直进行循环，直到处理完所有的数据为止。

3、源码参考

# 所有爬虫的基类，用户定义的爬虫必须从这个类继承
class Spider(object_ref):

    # 定义spier名字的字符串（string)
    # spider的名字定义了Scrapy如何定位（并初始化）spider,所以其必须是唯一的
    # name是spider最重要的属性，而且是必须的
    # 一般做法是以该网站(domain)(加或不加后缀)来命名spider
    # 例如，如果spider爬去mywebsite.com，该spider通常会被命名为mywebsite
    name = None

    # 初始化，提取爬虫名字，start_ruls
    def __init__(self,name=None,**kwargs):
        if name is not None:
            self.name = name
        # 如果爬虫没有名字，中断后续操作且报错
        elif not getattr(self,‘name‘,None):
            raise ValueError("%s must have a name" % type(self).__name__)

        # python 对象或类型通过内置成员__dict__来存储成员信息
        self.__dict__.update(kwargs)

        # URL列表，当没有指定的URL时，spider将从该列表中开始进行爬取
        # 因此，第一个被获取到的页面的URL将是该列表之一
        # 后续的URL将会从获取到的数据中提取
        if not hasattr(self,‘start_urls‘):
            self.start_urls=[]
    
    # 打印Scrapy执行后的log信息
    def log(self,message,level=log.DEBUG,**kw):
        log.msg(message,spider=self,level=level,**kw)
    
    # 判断对象object的属性是否存在，不存在则做断言处理
    def set_crawler(self,crawler):
        assert not hasattr(self,‘_crawler‘),"Spider already bounded to %s" % crawler
        self._crawler = crawler
    
    @property
    def crawler(self):
        assert hasattr(self,‘_crawler‘),"Spider not bounded to any crawler"
        return self._crawler
    
    @property
    def settings(self):
        return self.crawler.settings

    # 该方法将读取start_urls内的地址，并为每一个地址生成一个Request对象，交给Scrapy下载并返回Response
    # 该方法仅调用一次
    def start_requests(self):
        for url in self.start_urls:
            yield self.make_requests_from_url(url)
    
    # start_requests()中调用，实际生成Request的函数
    # Request对象默认的回调函数为parse()，提交的方式为get
    def make_requests_from_url(self,url):
        return Request(url,dont_filter=True)
    
    @classmethod
    def handles_request(cls,request):
        return url_is_from_spider(request.url,cls)

    def __str__(self):
        return "<%s %r as 0x%0x>" % (type(self).__name__,self.name,id(self))
    
    __repr = __str__