CrawlSpider
Posted youhongliang
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了CrawlSpider相关的知识,希望对你有一定的参考价值。
-
CrawlSpider
- 它就是一个类,是scrapy.Spider的一个子类(派生类)
- 功能:
- 非常强大
- 很方便的实现全站数据的爬取
- 两个属性(对象)
- 链接提取器
- 如何进行链接的提取
- 由开发人员制定相关规则
- 通过相应的规则进行链接的提取
- 去哪进行链接的提取
- 就是在页面(起始URL)中提取
- 如何进行链接的提取
- 规则解析器
- 在这进行规则的制定
- 解析规则和解析数据
- 如何使用crawlspider
- 创建项目: scrapy startproject budejiepro
- 创建基于crawlspider的爬虫文件:
- cd budejiepro
- scrapy genspider -t crawl budejie www.xxx.com
- 执行爬虫文件:
- 进入到爬虫文件夹
- 使用命令执行: scrapy runspdier budejie.py
- 链接提取器
以上是关于CrawlSpider的主要内容,如果未能解决你的问题,请参考以下文章