如何在 C# 中从 HTML 文件中提取图像 url

Posted

技术标签:

【中文标题】如何在 C# 中从 HTML 文件中提取图像 url【英文标题】:How to extract image urls from HTML File in C# 【发布时间】:2010-10-21 21:24:19 【问题描述】:

谁能帮助我解释如何从 C# 中的 html 文件中提取图像 url

【问题讨论】:

【参考方案1】:

HTML Agility Pack 可以做到这一点 - 只需使用类似 //img 的查询并访问 src - 就像这样:

string html;
using (WebClient client = new WebClient()) 
    html = client.DownloadString("http://www.google.com");

HtmlDocument doc = new HtmlDocument();        
doc.LoadHtml(html);
foreach(HtmlNode img in doc.DocumentNode.SelectNodes("//img")) 
    Console.WriteLine(img.GetAttributeValue("src", null));

【讨论】:

+1 我昨天用正则表达式痛苦地写了一个 SO 投票计数器/标签。这会有很大帮助。 使用正则表达式不是更容易吗? 这将只提取最顶层节点的子节点的 img 元素吗? @mirezus - 不 // 表示任何级别 内联图像的情况下效果不佳,因为 SRC 实际上包含图像本身。【参考方案2】:

您必须解析 HTML 并检查 img 标签,使用以下链接它包含用于解析 HTML 标签的 C# 库

【讨论】:

以上是关于如何在 C# 中从 HTML 文件中提取图像 url的主要内容,如果未能解决你的问题,请参考以下文章

如何在c#中从html中解析出文本

如何在 C# 中从 MS Office 文档中提取文本

在 C# 中从 .docx 文件的页眉和页脚获取图像

如何在 Flutter 中从 JSON 中提取图像链接 - 正则表达式

在python中从PDF中提取图像而不重新采样?

如何在 JavaScript 中从 PDF 中提取文本