[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [一] 初衷与架构设计

Posted 2021-04-25 dotNET跨平台

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [一] 初衷与架构设计相关的知识，希望对你有一定的参考价值。

一，为什么要造轮子

有兴趣的同学可以去各大招聘网站看一下爬虫工程师的要求，大多是JAVA，PYTHON甚至于还有NODEJS，C++，再或者在开源中国查询C#的爬虫，仅有几个非常简单或是几年没有更新的项目。从我看的一些文章来说，单纯性能上.NET对比JAVA，PYTHON并没有处于弱势，另根据我多年的开发经验大多爬虫性能瓶颈在并发下载（网速）、IP池，因此我认为用C#写一个爬虫框架绝对是可行的，那么为什么我大.NET没有一个强大的爬虫框架呢？说真的我不知道，可能爬虫框架核心上比较简单而没有被大牛看上，也可能.NET的开发人员没有别的语言的开发人员勤奋，或是.NET的开源氛围没有别的语言高。随着.NET开源消息的公布，我觉得是时候开发一个跨平台，跨语言的爬虫框架了。我不喜欢复杂的东西，总是觉得复杂的东西容易出问题，可能跟我个人能力有限，驾驭不了有关。所以设计DotnetSpider的时候是参考JAVA下一个轻量级爬虫框架webmagic，但是肯定有我自己的理解和改进在内的。此文是系列介绍第一篇，后面陆续会介绍详细用法及程序改动

另：个人代码水平有限，如果写得不好请大家指正海涵

二，框架设计

其实爬虫的设计我觉得还是挺成熟的，大部分都会拿出下图来说事，由于我是参考的webmagic，所以也少不得得贴上来给大家一看(图片是直接从webmagic上拿的)

Scheduler：负责URL的调度，可以实现如Queue, PriorityScheduler, RedisScheduler(可用于分布式)等等
Downloader: 负责下载html，可以实现如HttpDownloader, 浏览器的Downloader(WebDriver), FiddlerDownloader，本地文件Downloader等等
PageProcesser: 负责HTML解析及新的符合规则的URL解析，从上图可以看到传入Processer的是Page对象，里面包含了下载好的完整HTML或者JSON数据
Pipeline: 负责数据的存储, 可以实现如mysql, MySqlFile，MSSQL，MongoDb等等