如何在 C# 中从 HTML 文件中提取图像 url
Posted
技术标签:
【中文标题】如何在 C# 中从 HTML 文件中提取图像 url【英文标题】:How to extract image urls from HTML File in C# 【发布时间】:2010-10-21 21:24:19 【问题描述】:谁能帮助我解释如何从 C# 中的 html 文件中提取图像 url
【问题讨论】:
【参考方案1】:HTML Agility Pack 可以做到这一点 - 只需使用类似 //img 的查询并访问 src - 就像这样:
string html;
using (WebClient client = new WebClient())
html = client.DownloadString("http://www.google.com");
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
foreach(HtmlNode img in doc.DocumentNode.SelectNodes("//img"))
Console.WriteLine(img.GetAttributeValue("src", null));
【讨论】:
+1 我昨天用正则表达式痛苦地写了一个 SO 投票计数器/标签。这会有很大帮助。 使用正则表达式不是更容易吗? 这将只提取最顶层节点的子节点的 img 元素吗? @mirezus - 不 // 表示任何级别 内联图像的情况下效果不佳,因为 SRC 实际上包含图像本身。【参考方案2】:您必须解析 HTML 并检查 img 标签,使用以下链接它包含用于解析 HTML 标签的 C# 库
【讨论】:
以上是关于如何在 C# 中从 HTML 文件中提取图像 url的主要内容,如果未能解决你的问题,请参考以下文章