爬虫之CrawlSpider简单案例之读书网

Posted zry-yt

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫之CrawlSpider简单案例之读书网相关的知识,希望对你有一定的参考价值。

项目名py文件下

class DsSpider(CrawlSpider):
    name = ds
    allowed_domains = [dushu.com]
    start_urls = [https://www.dushu.com/book/1163_1.html]

    rules = (
        Rule(LinkExtractor(restrict_xpaths=//div[@class="pages"]), callback=parse_item, follow=True),
    )

    def parse_item(self, response):
        item = {}
        # print(response.url)
        lis = response.xpath(//div[@class="bookslist"]/ul/li)
        for li in lis:
            item[name] = li.xpath(.//h3/a/text()).extract_first()
            item[link] = li.xpath(.//h3/a/@href).extract_first()
            item[author] = li.xpath(.//p[1]/a/text()).extract_first()
        #item[‘domain_id‘] = response.xpath(‘//input[@id="sid"]/@value‘).get()
        #item[‘name‘] = response.xpath(‘//div[@id="name"]‘).get()
        #item[‘description‘] = response.xpath(‘//div[@id="description"]‘).get()
            yield item

 

以上是关于爬虫之CrawlSpider简单案例之读书网的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫入门Scrapy框架之CrawlSpider类

爬虫学习 16.Python网络爬虫之Scrapy框架(CrawlSpider)

Python网络爬虫之Scrapy框架(CrawlSpider)

18python网路爬虫之Scrapy框架中的CrawlSpider详解

CrawlSpider爬取读书网

Python爬虫之Scrapy框架系列(12)——实战ZH小说的爬取来深入学习CrawlSpider