CrawlSpider

Posted youhongliang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了CrawlSpider相关的知识,希望对你有一定的参考价值。

  • CrawlSpider

    • 它就是一个类,是scrapy.Spider的一个子类(派生类)
    • 功能:
      • 非常强大
      • 很方便的实现全站数据的爬取
    • 两个属性(对象)
      • 链接提取器
        • 如何进行链接的提取
          • 由开发人员制定相关规则
          • 通过相应的规则进行链接的提取
        • 去哪进行链接的提取
          • 就是在页面(起始URL)中提取
      • 规则解析器
        • 在这进行规则的制定
        • 解析规则和解析数据
          • 如何使用crawlspider
      • 创建项目: scrapy startproject budejiepro
      • 创建基于crawlspider的爬虫文件:
        • cd budejiepro
        • scrapy genspider -t crawl budejie www.xxx.com
      • 执行爬虫文件:
        • 进入到爬虫文件夹
        • 使用命令执行: scrapy runspdier budejie.py

以上是关于CrawlSpider的主要内容,如果未能解决你的问题,请参考以下文章