爬虫日记(69):Scrapy的CrawlSpider使用

Posted caimouse

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫日记(69):Scrapy的CrawlSpider使用相关的知识,希望对你有一定的参考价值。

在开发爬虫的过程中,经常会遇到非常规则的网站,只需要一条或几条规则就可以把整个网站的内容收集到了。对于这样的网站,我们就可以采用更加简单的方法,就是采用CrawlSpider类作为基类的蜘蛛类,它可以从首页里指定一些规则,然后就可以收集到下一个连接的地址。

在前面的文章:

https://mysoft.blog.csdn.net/article/details/114984305

里已经介绍过这个类的基本内容,如果你记不起了,可以再回头去查看一下。接着下来,我们来演示一下如何爬取一个RSS的网站:

因为很多人要学习英语,就需要查看一些文章,因此需要开发一个手机的应用,把这些文章推送给学习的用户,这样每个月就可以从用户那里收取几元的月租费。如果把这个收集文章的任务自动化,就需要使用爬虫的工作了。因此学习这个爬虫还是很有实用价值的。

以上是关于爬虫日记(69):Scrapy的CrawlSpider使用的主要内容,如果未能解决你的问题,请参考以下文章

爬虫日记(63):Scrapy的设置参数-日志

爬虫日记(73):Scrapy程序运行入口点分析

爬虫日记(75):Scrapy的Settings源码分析

爬虫日记(74):Scrapy项目配置参数源码分析(二)

爬虫日记(76):Scrapy的命令行源码分析二

爬虫日记(85):Scrapy的ExecutionEngine类