ASP.NET 网络爬虫小研究 HtmlAgilityPack
Posted DotNet
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ASP.NET 网络爬虫小研究 HtmlAgilityPack相关的知识,希望对你有一定的参考价值。
来源:魏杨杨
cnblogs.com/w5942066/p/8361585.html
一、什么是网络爬虫
关于爬虫百度百科这样定义的:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。从搜索引擎开始,爬虫应该就出现了,爬虫所做的事情就是分析URL、下载WebServer返回的HTML、分析HTML内容、构建HTTP请求的模拟、在爬虫过程中存储有用的信息等等。简单点说,就是把别人网站上的东西爬下来,至于爬做什么用就看你自己了。
写网络爬虫很多语言都可以写,比如众所周知的Python以及、php、C、Java等等。今天我就基于.NET中的HtmlAgilityPack类写一个简单的爬虫。
二、HtmlAgilityPack类
HtmlAgilityPack 是 .NET 下的一个 HTML 解析类库。支持用 XPath 来解析 HTML 。
命名空间: HtmlAgilityPack
2.1、基本属性
2.2、方法
三、第一个爬虫程序
3.1、在VS2017中建立一个web项目拖个服务器控件按钮上去
3.2、后台代码及解释
/// <summary>
以上是关于ASP.NET 网络爬虫小研究 HtmlAgilityPack的主要内容,如果未能解决你的问题,请参考以下文章