ASP.NET 网络爬虫小研究 HtmlAgilityPack

Posted DotNet

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ASP.NET 网络爬虫小研究 HtmlAgilityPack相关的知识,希望对你有一定的参考价值。


来源:魏杨杨

cnblogs.com/w5942066/p/8361585.html


一、什么是网络爬虫


关于爬虫百度百科这样定义的:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。


另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。从搜索引擎开始,爬虫应该就出现了,爬虫所做的事情就是分析URL、下载WebServer返回的HTML、分析HTML内容、构建HTTP请求的模拟、在爬虫过程中存储有用的信息等等。简单点说,就是把别人网站上的东西爬下来,至于爬做什么用就看你自己了。


写网络爬虫很多语言都可以写,比如众所周知的Python以及、php、C、Java等等。今天我就基于.NET中的HtmlAgilityPack类写一个简单的爬虫。


二、HtmlAgilityPack类


HtmlAgilityPack 是 .NET 下的一个 HTML 解析类库。支持用 XPath 来解析 HTML 。


命名空间: HtmlAgilityPack




2.1、基本属性

 

ASP.NET 网络爬虫小研究 HtmlAgilityPack


2.2、方法


ASP.NET 网络爬虫小研究 HtmlAgilityPack



三、第一个爬虫程序


3.1、在VS2017中建立一个web项目拖个服务器控件按钮上去



3.2、后台代码及解释


/// <summary>

以上是关于ASP.NET 网络爬虫小研究 HtmlAgilityPack的主要内容,如果未能解决你的问题,请参考以下文章

使用网络爬虫的一丝心得

Asp.net Core 微信小程序支付

asp.net爬虫asp.NET分页控件抓取第n页数据 javascript:__doPostBack

异步 asp.net 表

更改文本的 ASP.net 进度条

ASP.NET Core 快速入门(实战篇)