Scrapy-redis分布式爬虫

Posted huanggaoyu

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Scrapy-redis分布式爬虫相关的知识,希望对你有一定的参考价值。

将Scrapy项目修改为分布式

https://github.com/rmax/scrapy-redis

  • dmoz.py:普通crawlspider模板
  • myspider_redis.py:分布式的Spider模板
  • mycrawler_redis.py:分布式的CrawlSpider模板

一、修改继承的类为RedisCrawlSpider

class TaobaoSpider(RedisCrawlSpider):
    pass

二、导入RedisCrawlSpider的库并删除多余的库

from scrapy_redis.spiders import RedisCrawlSpider

三、由于默认提供的__init__方法不能使用,所以我们需要使用allowed_domains这种列表的形式

 allowed_domains = [‘www.ygdy8.net‘]

四、注释start_urls

# start_urls = [‘http://www.ygdy8.net/html/gndy/dyzz/index.html/‘]

五、添加redis_key

redis_key = ‘fen:start_urls‘

六、定义提取连接的规则

rules = (
  Rule(LinkExtractor(allow
=rlist_23_d+.html), callback=parse_item, follow=True), )

七、在settings.py文件中添加三个组件

# 指纹去重组件
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 调用器组件
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 在爬取的过程中允许暂停
SCHEDULER_PERSIST = True

八、 在settings.py文件中配置redis管道以及redis数据存储配置

# scrapy-redis组件已经写好往redis中存放的管道,只需要使用即可,默认存储到本机的redis服务中
ITEM_PIPELINES = {
‘scrapy_redis.pipelines.RedisPipeline‘: 400,
}
# 配置存储的redis服务器
REDIS_HOST = ‘Redis端的ip地址‘
REDIS_PORT = 6379

九、在settings.py文件中开启延迟下载

# 延迟下载,注意素质!
DOWNLOAD_DELAY = 1

十、运行分布式爬虫文件

scrapy runspider 爬虫文件名称

十一、由master端的redis给起始的url命令

lpush redis_key的值 起始url

 

以上是关于Scrapy-redis分布式爬虫的主要内容,如果未能解决你的问题,请参考以下文章

Scrapy-Redis使用教程&&将现有爬虫修改为分布式爬虫

Python爬虫scrapy-redis分布式实例

scrapy-redis分布式爬虫

scrapy-Redis分布式爬虫案例----阳光问政平台爬虫

10 给予scrapy-redis的分布式爬虫

scrapy-redis 更改队列和分布式爬虫