简单爬虫

Posted tangchun

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了简单爬虫相关的知识,希望对你有一定的参考价值。

使用htmlAgilityPack来开发简单爬虫:

1、NuGet安装HtmlAgilityPack

技术分享图片

2、简单的爬虫代码

  

HtmlWeb web=new HtmlWeb();
string url="网站地址";
var doc = web.Load(url);
//使用并行查询来获取元素的属性值
IList<string> detailPageUrls = new List<string>();
            doc.DocumentNode.SelectNodes("//a[@class=‘js-title value title-font‘]")
                .AsParallel().ToList().ForEach(hn =>
                {
                    string detailPageurl = hn.GetAttributeValue("href", string.Empty);
                    if (!string.IsNullOrWhiteSpace(detailPageurl))
                    {
                        detailPageUrls.Add(detailPageurl);
                    }
                });

官网地址:https://html-agility-pack.net/

 

以上是关于简单爬虫的主要内容,如果未能解决你的问题,请参考以下文章

爬虫遇到头疼的验证码?Python实战讲解弹窗处理和验证码识别

为啥这段代码会泄露? (简单的代码片段)

NIH周三讲座视频爬虫

代码片段 - Golang 实现简单的 Web 服务器

创建自己的代码片段(CodeSnippet)

Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段