第一天:项目搭建

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第一天:项目搭建相关的知识,希望对你有一定的参考价值。

一、前言

  1.0、由于没有写过那种通用爬虫的框架,就四处搜了一下,也找到很多资料,这里就采用了其中一个大神介绍的框架模式。具体引用地址我忘记了,这里就不贴出来了。

  2.0、之前说的验证码模块也停了,到时候集合在这个分类一面一起说

二、正文

  2.1、框架设计图

  技术分享

  2.2、由上面这张图可以看出各个模块之间的关系,具体描述我也复制粘贴过来了

  ①、Scheduler:负责URL的调度,可以实现如Queue, PriorityScheduler, RedisScheduler等等

  ②、Downloader: 负责下载html,可以实现如HttpDownloader, 浏览器的Downloader(WebDriver), FiddlerDownloader,本地文件Downloader等等

  ③、PageProcesser: 负责HTML解析及新的符合规则的URL解析

  ④、Pipeline: 负责数据的存储, 可以实现如mysql, MySqlFile,MSSQL,MongoDb等等

三、其他

  3.1、整个程序的设计我是这样打算的:

  ①、使用WPF开发(主要是因为界面可以比较酷炫)

  ②、暂时想到的主体功能有:数据采集、数据保存、数据过滤、模拟登陆(包括了数据发布)、验证码识别、当然允许的话可以放到云上...

  ③、使用要方便简单、可视化操作

  ④、嗯,就先这么多吧,最重要的还是现实,后期可以慢慢扩展

  3.2、项目涉及的内容可能有:

  ①、正则表达式、Xpath等解析Html

  ②、验证码识别

  ③、数据加密、解密

  ④、数据库操作

  ⑤、很多很多的内容,相信等做完这个项目,我将会有一个质的飞跃....

以上是关于第一天:项目搭建的主要内容,如果未能解决你的问题,请参考以下文章

第一天:项目搭建

黑马头条移动端项目第一天----从0开始搭建项目框架

GitHub轻松阅读微服务实战项目流程详解第一天:数据库表设计及其环境搭建项目运行

Python经典前端框架:Django,第一天Django环境搭建

学习C语言的第一天

[项目一]第一天