分布式爬虫

Posted 2021-01-17 louyifei0824

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了分布式爬虫相关的知识，希望对你有一定的参考价值。

如何实现分布式爬虫

【没有使用分布式的时候】

url存在本机内容中，如： start_urls= [‘http://www.dushu.com‘ ] yield scrapy.Request(url)

【使用分布式的时候】

没有了start_urls, 而是使用redis_key,

url存在redis中命令行执行：redis-cli lpush myspider:start_urls ‘http://www.xxx.com‘ 或者使用脚本执行： rds =Redis(‘127.0.0.1‘,6379) rds.lpush(...)

技术分享图片

REDIS_HOST = ‘localhost‘
REDIS_PORT = 6379

REDIS_URL = ‘redis://redis_server ip:6379‘

在settings.py中启用redis存储

ITEM_PIPELINES = {
    ‘scrapy_redis.pipelines.RedisPipeline‘: 400,
}

# scrapy runspider myspider_redis.py
scrapy crawl myspider

redis-cli -h redis_server_ip 
redis-cli> lpush myspider_redis:start_urls http://www.xxxxxx.com/aaa/

以上是关于分布式爬虫的主要内容，如果未能解决你的问题，请参考以下文章