scrapy_redis 设置

Posted wangdongpython

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy_redis 设置相关的知识,希望对你有一定的参考价值。

class MyCrawler(RedisCrawlSpider):
"""Spider that reads urls from redis queue (myspider:start_urls)."""
name = ‘mycrawler_redis‘
redis_key = ‘mycrawler:start_urls‘

rules = (
# follow all links
Rule(LinkExtractor(), callback=‘parse_page‘, follow=True),
)

def __init__(self, *args, **kwargs):
# Dynamically define the allowed domains list.
domain = kwargs.pop(‘domain‘, ‘‘)
self.allowed_domains = filter(None, domain.split(‘,‘))
super(MyCrawler, self).__init__(*args, **kwargs)

def parse_page(self, response):
return
‘name‘: response.css(‘title::text‘).extract_first(),
‘url‘: response.url,

以上是关于scrapy_redis 设置的主要内容,如果未能解决你的问题,请参考以下文章

scrapy 如何链接有密码的redis scrapy-redis 设置redis 密码 scrapy-redis如何为redis配置密码

scrapy分布式爬虫设置

python3下scrapy爬虫(第十四卷:scrapy+scrapy_redis+scrapyd打造分布式爬虫之执行)

Scrapy_redis主机连接虚拟机的数据库时显示积极拒绝,无法连接

爬虫进阶Scrapy_redis概念作用和流程(分布式爬虫)

scrapy_redis实现爬虫