Scrapy框架之分布式操作

Posted 2021-01-25 xiugeng

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Scrapy框架之分布式操作相关的知识，希望对你有一定的参考价值。

一、分布式爬虫介绍

　　分布式爬虫概念：多台机器上执行同一个爬虫程序，实现网站数据的分布爬取。

　　scrapy-redis是专门为scrapy框架开发的一套组件。该组件可以解决上述两个问题，让Scrapy实现分布式。
　　组件安装：

$ pip3 intall scrapy-redis

# 不注释时，只允许本机的客户端连接
# bind 127.0.0.1

# yes改为no，关闭redis的保护模式，客户端可以对服务器进行读写操作
protected-mode  no

# MAC/Linux
$ pwd
/Users/hqs/redis-5.0.2
$ src/redis-server redis.conf 

# windows
$ redis-server.exe redis-windows.conf

$ scrapy startproject redisPro
$ cd redisPro/
$ scrapy genspider -t crawl qiubai www.qiushibaike.com/pic/

　　这里运用CrawlSpider创建爬虫文件爬取全站图片数据。

　　在爬虫文件中要导入RedisCrawlSpider类，然后将爬虫文件修改成基于该类的源文件。

from scrapy_redis.spiders import RedisCrawlSpider

以上是关于Scrapy框架之分布式操作的主要内容，如果未能解决你的问题，请参考以下文章