Redis 七月小说网的爬虫缓存设计

Posted Kuai Jiajin

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Redis 七月小说网的爬虫缓存设计相关的知识,希望对你有一定的参考价值。

一、爬虫策略

1.主服务器先根据spider.all

二、缓存策略

1.主服务器通过爬取各类排行榜或首页等Book集合、简短字段的页面
创建多个不同key的Hash

expect => create {"siteId_bookId": Hash} 

2.从服务器通过爬书详细页
更新单个key的部分Hash字段, 创建章节有序集合存放章节id ,生成request_url到spider.wait中

expect =>  
update {"siteId_bookId": Hash} , 
create {"siteId_bookId_chapters": Sort Set}

3.从服务器通过爬章节详细页
创建章节Hash对象

expect => create {"siteId_bookId_chapterId": Hash}

4.从主服务器归并两个hash对象和一个sort set对象,生成Book信息导入数据库。




以上是关于Redis 七月小说网的爬虫缓存设计的主要内容,如果未能解决你的问题,请参考以下文章

七月算法《python爬虫》第一课:Python爬虫小示例

如何利用redis来进行分布式集群系统的限流设计

Python高级应用程序设计任务

Python高级应用程序设计任务要求

爬虫学习笔记(十三)—— scrapy-redis:存储到MySQLScrapy项目部署

抓取霹雳轻小说爬虫代码