Scrapy-redis分布式爬虫
Posted huanggaoyu
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Scrapy-redis分布式爬虫相关的知识,希望对你有一定的参考价值。
将Scrapy项目修改为分布式
https://github.com/rmax/scrapy-redis
- dmoz.py:普通crawlspider模板
- myspider_redis.py:分布式的Spider模板
- mycrawler_redis.py:分布式的CrawlSpider模板
一、修改继承的类为RedisCrawlSpider
class TaobaoSpider(RedisCrawlSpider): pass
二、导入RedisCrawlSpider的库并删除多余的库
from scrapy_redis.spiders import RedisCrawlSpider
三、由于默认提供的__init__方法不能使用,所以我们需要使用allowed_domains这种列表的形式
allowed_domains = [‘www.ygdy8.net‘]
四、注释start_urls
# start_urls = [‘http://www.ygdy8.net/html/gndy/dyzz/index.html/‘]
五、添加redis_key
redis_key = ‘fen:start_urls‘
六、定义提取连接的规则
rules = (
Rule(LinkExtractor(allow=r‘list_23_d+.html‘), callback=‘parse_item‘, follow=True), )
七、在settings.py文件中添加三个组件
# 指纹去重组件 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 调用器组件 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 在爬取的过程中允许暂停 SCHEDULER_PERSIST = True
八、 在settings.py文件中配置redis管道以及redis数据存储配置
# scrapy-redis组件已经写好往redis中存放的管道,只需要使用即可,默认存储到本机的redis服务中
ITEM_PIPELINES = {
‘scrapy_redis.pipelines.RedisPipeline‘: 400,
}
# 配置存储的redis服务器
REDIS_HOST = ‘Redis端的ip地址‘
REDIS_PORT = 6379
九、在settings.py文件中开启延迟下载
# 延迟下载,注意素质!
DOWNLOAD_DELAY = 1
十、运行分布式爬虫文件
scrapy runspider 爬虫文件名称
十一、由master端的redis给起始的url命令
lpush redis_key的值 起始url
以上是关于Scrapy-redis分布式爬虫的主要内容,如果未能解决你的问题,请参考以下文章
Scrapy-Redis使用教程&&将现有爬虫修改为分布式爬虫