第一天:项目搭建
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第一天:项目搭建相关的知识,希望对你有一定的参考价值。
一、前言
1.0、由于没有写过那种通用爬虫的框架,就四处搜了一下,也找到很多资料,这里就采用了其中一个大神介绍的框架模式。具体引用地址我忘记了,这里就不贴出来了。
2.0、之前说的验证码模块也停了,到时候集合在这个分类一面一起说
二、正文
2.1、框架设计图
2.2、由上面这张图可以看出各个模块之间的关系,具体描述我也复制粘贴过来了
①、Scheduler:负责URL的调度,可以实现如Queue, PriorityScheduler, RedisScheduler等等
②、Downloader: 负责下载html,可以实现如HttpDownloader, 浏览器的Downloader(WebDriver), FiddlerDownloader,本地文件Downloader等等
③、PageProcesser: 负责HTML解析及新的符合规则的URL解析
④、Pipeline: 负责数据的存储, 可以实现如mysql, MySqlFile,MSSQL,MongoDb等等
三、其他
3.1、整个程序的设计我是这样打算的:
①、使用WPF开发(主要是因为界面可以比较酷炫)
②、暂时想到的主体功能有:数据采集、数据保存、数据过滤、模拟登陆(包括了数据发布)、验证码识别、当然允许的话可以放到云上...
③、使用要方便简单、可视化操作
④、嗯,就先这么多吧,最重要的还是现实,后期可以慢慢扩展
3.2、项目涉及的内容可能有:
①、正则表达式、Xpath等解析Html
②、验证码识别
③、数据加密、解密
④、数据库操作
⑤、很多很多的内容,相信等做完这个项目,我将会有一个质的飞跃....
以上是关于第一天:项目搭建的主要内容,如果未能解决你的问题,请参考以下文章
GitHub轻松阅读微服务实战项目流程详解第一天:数据库表设计及其环境搭建项目运行