爬虫方案设计
Posted 小肚腩的世界
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫方案设计相关的知识,希望对你有一定的参考价值。
爬虫方案设计(二)
仅供个人交流学习使用,禁止转载,严禁商用!!!任何商业用途与本人无关!
根据上一篇博客的分析,围绕着三要素来设计程序。
本篇的任务是爬取创作者上传的视频信息。
爬取策略:
- 第一种:遍历创作者id的合理范围(目前只实现了);
- 第二种:广度遍历有人气的创作者或者每个视频主题的代表创作者,包括他们关注的创作者,不过接口只提供了创作者前5页他关注的列表;(基于人际关系网,相似的创作者发生一个聚类,爬取的数据会更具代表性)
- 不考虑冷数据,但会爬取近期的冷数据
一般出现的错误:
- 412代码,拒绝访问,出现次数多,需要挂代理,一般等待久一点再访问就行
- 网络连接失败,网络异常
第一种:
graph TD
start(开始)
--> uids[设置遍历id的范围.e.g.1-100000]
--> pool[设置进程池]
--> uid[取用户uid, 默认page_index=1]
--> j1{判断uid是否在范围之内} --no--> e(结束)
j1 --yes--> task[分派任务给空闲的进程, 若无, 则死循环等待空闲的进程] --> visit[等待: 访问用户上传视频查询接口]
--success--> j2{视频数目>=总数?}
--no--> delay[等待10s, page_index += 1] --> visit
j2 --yes--> save[保存数据到db.videos]
--> delay1[等待10s] --> uid
visit --error--> j3{第3次错误?}
j3 --no--> delay2[等待10分钟] --> visit
j3 --yes--> log[记录错误信息和用户uid在日志数据库] --> uid
第二种,广度优先搜索:
graph TD
start(开始)
--> uids[初始化用户数据库]
--> pool[设置进程池]
--> uid[从用户数据库查询用户uid]
--> j1{查询出来是否为空?} --yes--> e(结束)
j1 --no--> task[分派任务给空闲的进程, 若无, 则死循环等待空闲的进程]
task --> visit1[等待: 访问用户关注列表]
visit1 --success--> j4{page_index+=1 > all_page?} --yes--> save1[保存数据到db.users] -->delay3
j4 --no --> delay4[等待3s] --> visit1
delay3 --> visit[等待: 访问用户上传视频查询接口]
--success--> j2{视频数目>=总数?}
--no--> delay[等待10s, page_index += 1] --> visit
j2 --yes--> save[保存数据到db.videos]
--> delay1[等待10s] --> uid
visit --error--> j3{第3次错误?}
j3 --no--> delay2[等待10分钟] --> visit
j3 --yes--> log[记录错误信息和用户uid在日志数据库] --> uid
visit1 --error--> log1[记录错误信息和用户uid在日志数据库]
log1 --> delay3[等待30s]
以上是关于爬虫方案设计的主要内容,如果未能解决你的问题,请参考以下文章