基于scrapy中---全站爬取数据----CrawlSpider的使用
Posted duanhaoxin
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于scrapy中---全站爬取数据----CrawlSpider的使用相关的知识,希望对你有一定的参考价值。
#数据源:糗事百科
爬虫代码:
1 import scrapy 2 from scrapy.linkextractors import LinkExtractor 3 from scrapy.spiders import CrawlSpider, Rule 4 5 6 class QiubaiSpider(CrawlSpider): 7 name = ‘qiubai‘ 8 # allowed_domains = [‘www.xxx.com‘] 9 start_urls = [‘https://www.qiushibaike.com/pic/‘] 10 #第一页之后的所有url 11 link=LinkExtractor(allow=r‘/pic/page/d+?‘) 12 #第一页的url 13 link1=LinkExtractor(allow=r‘/pic/$‘) 14 rules = ( 15 Rule(link, callback=‘parse_item‘, follow=True), 16 Rule(link1, callback=‘parse_item‘, follow=True), 17 ) 18 19 def parse_item(self, response): 20 print(response.xpath(‘//*[@id="qiushi_tag_121352783"]/a/div/span/text()‘).extract_first())
以上是关于基于scrapy中---全站爬取数据----CrawlSpider的使用的主要内容,如果未能解决你的问题,请参考以下文章
Scrapy框架之CrawlSpider全站爬取--2019-08-06 15:17:42
0 scrapy架构介绍1 scrapy解析数据2 settings相关配置,提高爬取效率3 持久化方案 4 全站爬取cnblogs文章