ASP.NET 网络爬虫小研究 HtmlAgilityPack

Posted 2021-04-20 DotNet

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了ASP.NET 网络爬虫小研究 HtmlAgilityPack相关的知识，希望对你有一定的参考价值。

来源：魏杨杨

cnblogs.com/w5942066/p/8361585.html

一、什么是网络爬虫

关于爬虫百度百科这样定义的：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。从搜索引擎开始，爬虫应该就出现了，爬虫所做的事情就是分析URL、下载WebServer返回的HTML、分析HTML内容、构建HTTP请求的模拟、在爬虫过程中存储有用的信息等等。简单点说，就是把别人网站上的东西爬下来，至于爬做什么用就看你自己了。

写网络爬虫很多语言都可以写，比如众所周知的Python以及、php、C、Java等等。今天我就基于.NET中的HtmlAgilityPack类写一个简单的爬虫。

二、HtmlAgilityPack类

HtmlAgilityPack 是 .NET 下的一个 HTML 解析类库。支持用 XPath 来解析 HTML 。

命名空间： HtmlAgilityPack

2.1、基本属性

ASP.NET 网络爬虫小研究 HtmlAgilityPack