替代正则表达式以解析链接的 HTML 页面 [重复]

Posted

技术标签:

【中文标题】替代正则表达式以解析链接的 HTML 页面 [重复]【英文标题】:Alternate to regular expressions for parsing HTML page for links [duplicate] 【发布时间】:2013-08-07 11:58:42 【问题描述】:

所以我正在尝试构建一个网络爬虫。我已经开始传递请求并获取页面的所有 html 作为响应。

接下来我想到了使用正则表达式从 HTML 页面中提取链接。然而,我越是尝试学习它们,它们看起来就越棘手。

有没有正则表达式的替代品(这似乎是一个讨论问题,但不是我已经搜索了互联网并没有找到满意的答案)。

【问题讨论】:

你想要 HTML 实用程序包htmlagilitypack.codeplex.com 【参考方案1】:

HtmlAgilityPack 是 .NET 中最著名的 HTML 解析库。

【讨论】:

【参考方案2】:

正则表达式不能用于 HTML 解析(请参阅http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.html),请使用适当的 HTML 解析器,如 HtmlAgilityPack :

http://www.nuget.org/packages/HtmlAgilityPack

【讨论】:

以上是关于替代正则表达式以解析链接的 HTML 页面 [重复]的主要内容,如果未能解决你的问题,请参考以下文章

正则表达式没有正确结束[重复]

Python:使用JSON API链接通过正则表达式显示命名捕获组

正则表达式删除链接[重复]

C#正则表达式解析HTML [重复]

在 HTML 单元格中使用 HTML 解析 Python 正则表达式 [重复]

正则表达式帮助python找到链接