Scrapy中如何获取下一页链接

Posted sam11

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Scrapy中如何获取下一页链接相关的知识,希望对你有一定的参考价值。

Scrapy从开始链接抓取数据,然后通过下一页链接不停的抓取更多的数据。

那么如何获取下一页链接呢,常见有两种方式:

1、通过当前页面的“下一页”链接获取,例如:

<div class=zw_page1>
下一篇:<a href="../../Jokehtml/bxnn/2017122722221351.htm">爆逗二货,醉人的笑容你会有</a>
</div> 

此时获取的链接一般是相对url,需要将相对url转为绝对url,方法如下:

# 获取下一篇链接
nexthref = response.xpath(//div[@class="zw_page1"]/a/@href).extract_first()
if nexthref is not None:
    # 将相对url转为绝对url
    nexthref = response.urljoin(nexthref)

 

2、抓取数据的url有一定的规律,例如:

http://www.haha365.com/joke/index_1.htm

http://www.haha365.com/joke/index_2.htm

......

http://www.haha365.com/joke/index_1022.htm

此时可以通过自定义生成url的方式获取下一页url,方法如下:

# 获取下一篇链接
s1 = re.search(rindex_[0-9]+, response.url, re.S)
s2 = re.search(r[0-9]+, s1.group(), re.S)
i = int(s2.group()) + 1
nexthref = "http://www.haha365.com/joke/index_"+str(i)+".htm"

 

以上是关于Scrapy中如何获取下一页链接的主要内容,如果未能解决你的问题,请参考以下文章

问题:用scrapy爬取下一页链接时返回空值?

scrapy如何获取动态数据的下一页url?

如何将目标页面的结果合并到scrapy中的当前页面?

如何在python中使用selenium或scrapy单击“下一步”按钮

使用 Scrapy 传递请求

scrapy python (json) 的下一页问题