简单爬虫
Posted tangchun
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了简单爬虫相关的知识,希望对你有一定的参考价值。
使用htmlAgilityPack来开发简单爬虫:
1、NuGet安装HtmlAgilityPack
2、简单的爬虫代码
HtmlWeb web=new HtmlWeb(); string url="网站地址"; var doc = web.Load(url); //使用并行查询来获取元素的属性值 IList<string> detailPageUrls = new List<string>(); doc.DocumentNode.SelectNodes("//a[@class=‘js-title value title-font‘]") .AsParallel().ToList().ForEach(hn => { string detailPageurl = hn.GetAttributeValue("href", string.Empty); if (!string.IsNullOrWhiteSpace(detailPageurl)) { detailPageUrls.Add(detailPageurl); } });
官网地址:https://html-agility-pack.net/
以上是关于简单爬虫的主要内容,如果未能解决你的问题,请参考以下文章
爬虫遇到头疼的验证码?Python实战讲解弹窗处理和验证码识别
Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段