scrapy初试水 day03(递归调用)

Posted 窃语

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy初试水 day03(递归调用)相关的知识,希望对你有一定的参考价值。

import scrapy
from scrapy.http import Request
from scrapy.spider import Rule
from scrapy.linkextractors import LinkExtractor
# yield 就是return返回的是一个生成器
# 递归:1.修改allowed_domains,里面不能随便写,和正则匹配一样,链接必须满足allowed_domains里的格式
# 2.request = Request(urls[0], callback=self.parse)#回调自己的parse方法
# yield request
class DmozSpider(scrapy.Spider):
name = "use_scrapy_recursion" #要调用的名字
allowed_domains = ["zhaopin.com"] #分一个域
start_urls = [#所有要爬路径
"http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%8C%97%E4%BA%AC&kw=python&sm=0&p=1"
]
#每爬完一个网页会回调parse方法
def parse(self, response):
print(‘-------处理职位-----------‘)
hxsObj = response.xpath(‘//a[@class="next-page"]‘)
print(‘---------------------‘)
if len(hxsObj)==1:
urls = hxsObj[0].select("@href").extract()
text = hxsObj[0].select("text()").extract()
print(urls[0])
print(text)
request = Request(urls[0], callback=self.parse)#回调自己的parse方法
yield request

以上是关于scrapy初试水 day03(递归调用)的主要内容,如果未能解决你的问题,请参考以下文章

day03-递归函数函数式编程

day4-递归调用

函数递归+匿名函数+内置函数day15

day3-3.7递归

day④:递归

day15_函数递归_匿名函数_内置函数