.NET跨平台爬虫框架：DotnetSpider初衷与架构设计

Posted 2021-04-25 DotNet

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了.NET跨平台爬虫框架：DotnetSpider初衷与架构设计相关的知识，希望对你有一定的参考价值。

来源：ModestMT.Zou

cnblogs.com/modestmt/p/5480773.html

为什么要造轮子

同学们可以去各大招聘网站查看一下爬虫工程师的要求，大多是招JAVA、PYTHON，甚至于还有NODEJS，C++；再或者去开源中国查询C#的爬虫项目，仅有几个非常简单或是几年没有更新的项目。

而单纯性能上.NET对比JAVA，PYTHON并没有处于弱势，反而有开发上的优势（得益于世界上最强大的IDE)。爬虫性能瓶颈大多是在并发下载（网速）、IP池，那么为什么.NET没有一个强大的爬虫框架呢？说真的我不知道，可能爬虫框架核心上比较简单，也可能.NET的开发人员没有别的语言的开发人员勤奋，或是.NET的开源氛围没有别的语言高。

直到.NET要出开源版的消息传来，我觉得是时候开发一个跨平台，跨语言的爬虫框架了。但一开始是比较忐忑的，觉得自己水平不够去完全重新设计一个新的框架出来，因此参考了JAVA的一个轻量级爬虫框架webmagic，并加入了我自己的理解和改进。如果设计或写得不好请大家指正海涵

框架设计

由于我是参考的webmagic，所以整体架构上没有什么大的变化，设计图如下(图片是直接从webmagic上拿的)

Scheduler：负责URL的调度、去重，可以实现如Queue, PriorityQueueScheduler, RedisScheduler(可用于分布式)等等
Downloader: 负责下载HTML，可以实现如HttpDownloader, 浏览器的Downloader(WebDriver), FiddlerDownloader，本地文件Downloader等等
PageProcesser: 负责HTML解析、目标URL的选择
Pipeline: 负责数据的存储, 已实现文件存储, mysql存储, MySqlFile存储(脚本)，MSSQL存储，MongoDb存储, 更多存储期待您的贡献

优点

数据对象是通过Json结构来解析的：可以实现类中属性是类的情况(较少此种情况, 而且数据Pipeline仅限MongoDB时才能存储此种类型数据）
支持Json文件定义爬虫：最终实现跨语言调用
自动创建数据库、数据表
支持 .NET CORE，可以跨平台
支持ADSL拨号换IP：如果所有爬虫统一部署, 可以实现单台机器同时运行多个任务拨号互不影响、或者一个路由下面多个电脑下多个任务拨号互不影响
支持自定义代理池

基本使用

基本使用只需要引用DotnetSpider2.Core(Nuget中获取)

DotnetSpider实现一个完整爬虫是需要4个模块的：Scheduler、Downloader、PageProcessor、Pipeline。由于Downloader和Scheduler都是有基本实现的，因此只需要实现PageProcessor和Pipeline就可以实现一个基本爬虫了，这种方式也是最自由的方式。

完全自定义的例子如下：

public static void Main(string[] args)

{

// Custmize processor and pipeline 完全自定义页面解析和数据管道

BaseUsage.CustmizeProcessorAndPipeline();

Console.WriteLine("Press any key to continue...");

Console.Read();

}

public static void CustmizeProcessorAndPipeline()

{

// Config encoding, header, cookie, proxy etc... 定义采集的 Site 对象, 设置 Header、Cookie、代理等

var site = new Site { EncodingName = "UTF-8", RemoveOutboundLinks = true };

for (int i = 1; i < 5; ++i)

{

// Add start/feed urls. 添加初始采集链接

site.AddStartUrl("http://" + $"www.youku.com/v_olist/c_97_g__a__sg__mt__lg__q__s_1_r_0_u_0_pt_0_av_0_ag_0_sg__pr__h__d_1_p_{i}.html");

}

Spider spider = Spider.Create(site,

// use memoery queue scheduler. 使用内存调度

new QueueDuplicateRemovedScheduler(),

// use custmize processor for youku 为优酷自定义的 Processor

new YoukuPageProcessor())

// use custmize pipeline for youku 为优酷自定义的 Pipeline

.AddPipeline(new YoukuPipeline())

// dowload html by http client

.SetDownloader(new HttpClientDownloader())

// 1 thread

.SetThreadNum(1);

spider.EmptySleepTime = 3000;

// Start crawler 启动爬虫

spider.Run();

}

public class YoukuPipeline : BasePipeline

{

private static long count = 0;

public override void Process(ResultItems resultItems)

{

foreach (YoukuVideo entry in resultItems.Results["VideoResult"])

{

count++;

Console.WriteLine($"[YoukuVideo {count}] {entry.Name}");

}

// Other actions like save data to DB. 可以自由实现插入数据库或保存到文件

}

}

public class YoukuPageProcessor : BasePageProcessor

{

protected override void Handle(Page page)

{

// 利用 Selectable 查询并构造自己想要的数据对象

var totalVideoElements = page.Selectable.SelectList(Selectors.XPath("//div[@class='yk-pack pack-film']")).Nodes();

List<YoukuVideo> results = new List<YoukuVideo>();

foreach (var videoElement in totalVideoElements)

{

var video = new YoukuVideo();

video.Name = videoElement.Select(Selectors.XPath(".//img[@class='quic']/@alt")).GetValue();

results.Add(video);

}

// Save data object by key. 以自定义KEY存入page对象中供Pipeline调用

page.AddResultItem("VideoResult", results);

// Add target requests to scheduler. 解析需要采集的URL

foreach (var url in page.Selectable.SelectList(Selectors.XPath("//ul[@class='yk-pages']")).Links().Nodes())

{

page.AddTargetRequest(new Request(url.GetValue(), null));

}

}

}

public class YoukuVideo

{

public string Name { get; set; }

}

配置式爬虫

配置式爬虫需要额外引用DotnetSpider2.Extension(Nuget中获取)

大部分情况下只需要配置式来实现一个采集任务。相对于基本使用方式，配置式爬式只需要短短的几行代码就可以实现一个爬虫。但凡事有利就有弊，配置式爬的自由度相对低了一些。

使用配置式爬虫的步骤如下：

定义数据实体类，通过添加Attribute来定义数据的存储规则、数据从页面的解析规则
定义爬虫任务的定义，继承EntitySpiderBuilder
在Maink中实例化定义好的爬虫任务，并调用Run方法

完整代码如下, 感受一下就好，后面章节会详细介绍如何实现:

public class JdSkuSampleSpider : EntitySpiderBuilder

{

protected override EntitySpider GetEntitySpider()

{

EntitySpider context = new EntitySpider(new Site

{

//HttpProxyPool = new HttpProxyPool(new KuaidailiProxySupplier("快代理API"))

});

context.SetThreadNum(1);

context.SetIdentity("JD_sku_store_test_" + DateTime.Now.ToString("yyyy_MM_dd_hhmmss"));

// dowload html by http client

context.SetDownloader(new HttpClientDownloader());

// save data to mysql.

context.AddEntityPipeline(new MySqlEntityPipeline("Database='test';Data Source=localhost;User ID=root;Password=1qazZAQ!;Port=3306"));

context.AddStartUrl("http://list.jd.com/list.html?cat=9987,653,655&page=2&JL=6_0_0&ms=5#J_main", new Dictionary<string, object> { { "name", "手机" }, { "cat3", "655" } });

context.AddEntityType(typeof(Product));

return context;

}

[Schema("test", "sku", TableSuffix.Today)]

[EntitySelector(Expression = "//li[@class='gl-item']/div[contains(@class,'j-sku-item')]")]

[Indexes(Index = new[] { "category" }, Unique = new[] { "category,sku", "sku" })]

[TargetUrlsSelector(XPaths = new[] { "//span[@class=\"p-num\"]" }, Patterns = new[] { @"&page=[0-9]+&" })]

public class Product : ISpiderEntity

{

[StoredAs("sku", DataType.String, 25)]

[PropertySelector(Expression = "./@data-sku")]

public string Sku { get; set; }

[StoredAs("category", DataType.String, 20)]

[PropertySelector(Expression = "name", Type = SelectorType.Enviroment)]

public string CategoryName { get; set; }

[StoredAs("cat3", DataType.String, 20)]

[PropertySelector(Expression = "cat3", Type = SelectorType.Enviroment)]

public int CategoryId { get; set; }

[StoredAs("url", DataType.Text)]

[PropertySelector(Expression = "./div[1]/a/@href")]

public string Url { get; set; }

[StoredAs("commentscount", DataType.String, 32)]

[PropertySelector(Expression = "./div[5]/strong/a")]

public long CommentsCount { get; set; }

[StoredAs("shopname", DataType.String, 100)]

[PropertySelector(Expression = ".//div[@class='p-shop']/@data-shop_name")]

public string ShopName { get; set; }

[StoredAs("name", DataType.String, 50)]

[PropertySelector(Expression = ".//div[@class='p-name']/a/em")]

public string Name { get; set; }

[StoredAs("venderid", DataType.String, 25)]

[PropertySelector(Expression = "./@venderid")]

public string VenderId { get; set; }

[StoredAs("jdzy_shop_id", DataType.String, 25)]

[PropertySelector(Expression = "./@jdzy_shop_id")]

public string JdzyShopId { get; set; }

[StoredAs("run_id", DataType.Date)]

[PropertySelector(Expression = "Monday", Type = SelectorType.Enviroment)]

public DateTime RunId { get; set; }

[PropertySelector(Expression = "Now", Type = SelectorType.Enviroment)]

[StoredAs("cdate", DataType.Time)]

public DateTime CDate { get; set; }

}

}

public class Program

{

public static void Main(string[] args)

{

JdSkuSampleSpider spiderBuilder = new JdSkuSampleSpider();

spiderBuilder.Run();

}

}

发现一个更简单可以帮助小白做数据采集的工具：爬一爬 https://pa1pa.com

看完本文有收获？请转发分享给更多人

关注「DotNet」，提升.Net技能

以上是关于.NET跨平台爬虫框架：DotnetSpider初衷与架构设计的主要内容，如果未能解决你的问题，请参考以下文章