爬虫之CrawlSpider简单案例之读书网
Posted zry-yt
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫之CrawlSpider简单案例之读书网相关的知识,希望对你有一定的参考价值。
项目名py文件下
class DsSpider(CrawlSpider): name = ‘ds‘ allowed_domains = [‘dushu.com‘] start_urls = [‘https://www.dushu.com/book/1163_1.html‘] rules = ( Rule(LinkExtractor(restrict_xpaths=‘//div[@class="pages"]‘), callback=‘parse_item‘, follow=True), ) def parse_item(self, response): item = {} # print(response.url) lis = response.xpath(‘//div[@class="bookslist"]/ul/li‘) for li in lis: item[‘name‘] = li.xpath(‘.//h3/a/text()‘).extract_first() item[‘link‘] = li.xpath(‘.//h3/a/@href‘).extract_first() item[‘author‘] = li.xpath(‘.//p[1]/a/text()‘).extract_first() #item[‘domain_id‘] = response.xpath(‘//input[@id="sid"]/@value‘).get() #item[‘name‘] = response.xpath(‘//div[@id="name"]‘).get() #item[‘description‘] = response.xpath(‘//div[@id="description"]‘).get() yield item
以上是关于爬虫之CrawlSpider简单案例之读书网的主要内容,如果未能解决你的问题,请参考以下文章
python爬虫入门Scrapy框架之CrawlSpider类
爬虫学习 16.Python网络爬虫之Scrapy框架(CrawlSpider)
Python网络爬虫之Scrapy框架(CrawlSpider)