替代正则表达式以解析链接的 HTML 页面 [重复]
Posted
技术标签:
【中文标题】替代正则表达式以解析链接的 HTML 页面 [重复]【英文标题】:Alternate to regular expressions for parsing HTML page for links [duplicate] 【发布时间】:2013-08-07 11:58:42 【问题描述】:所以我正在尝试构建一个网络爬虫。我已经开始传递请求并获取页面的所有 html 作为响应。
接下来我想到了使用正则表达式从 HTML 页面中提取链接。然而,我越是尝试学习它们,它们看起来就越棘手。
有没有正则表达式的替代品(这似乎是一个讨论问题,但不是我已经搜索了互联网并没有找到满意的答案)。
【问题讨论】:
你想要 HTML 实用程序包htmlagilitypack.codeplex.com 【参考方案1】:HtmlAgilityPack 是 .NET 中最著名的 HTML 解析库。
【讨论】:
【参考方案2】:正则表达式不能用于 HTML 解析(请参阅http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.html),请使用适当的 HTML 解析器,如 HtmlAgilityPack :
http://www.nuget.org/packages/HtmlAgilityPack
【讨论】:
以上是关于替代正则表达式以解析链接的 HTML 页面 [重复]的主要内容,如果未能解决你的问题,请参考以下文章
Python:使用JSON API链接通过正则表达式显示命名捕获组