Scrapy - CrawlSpider爬虫

Posted knighterrant

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Scrapy - CrawlSpider爬虫相关的知识,希望对你有一定的参考价值。

crawlSpider 爬虫

思路:

从response中提取满足某个条件的url地址,发送给引擎,同时能够指定callback函数。

1. 创建项目 

scrapy startproject  myspiderproject

2. 创建crawlSpider 爬虫

scrapy genspider -t crawl 爬虫名  爬取网站域名

3. 启动爬虫

scrapy crawl  爬虫名     # 会打印日志

scrapy crawl  爬虫名   --nolog

crawlSpider 的参数解析:

技术图片

 

 案例

需求:爬取csdn上面所有的博客专家及其文章的文章 Url地址:http://blog.csdn.net/experts.html

分析:

技术图片

使用crawlSpider 的注意点:

技术图片

补充知识点:

技术图片

 

以上是关于Scrapy - CrawlSpider爬虫的主要内容,如果未能解决你的问题,请参考以下文章

Scrapy爬虫进阶crawlspider类的使用

Scrapy框架CrawlSpider类爬虫实例

爬虫学习 16.Python网络爬虫之Scrapy框架(CrawlSpider)

scrapy爬虫框架-CrawlSpider

Scrapy - CrawlSpider爬虫

Python网络爬虫之Scrapy框架(CrawlSpider)