从 div 标签中提取内容 C# RegEx

Posted

技术标签:

【中文标题】从 div 标签中提取内容 C# RegEx【英文标题】:Extract Content from Div Tag C# RegEx 【发布时间】:2011-06-14 02:24:19 【问题描述】:

我需要在 divtestimonial1 div 中提取此内容 我正在使用以下正则表达式,但它只返回第一行

Regex r = new Regex("&lt;div([^<]*<(?!/div>))");
%testimonial1headline

%testimonial1text

【问题讨论】:

【参考方案1】:

Regular expressions are generally not a good choice for parsing html。使用HTML Agility Pack 之类的工具可能会更好,所以我建议你使用它。

话虽如此,您可以使用此正则表达式匹配您的特定样本输入:

<div.*?id="divtestimonial1".*?>.*</div>

但它可能会在您的实际场景中中断。 Regex 和 HTML 的问题之一是正确检测标签的嵌套等。

【讨论】:

虽然这通常是正确的,但 OP 在这里提出的要求是非常实用的,并且可以使用 RegEx。

以上是关于从 div 标签中提取内容 C# RegEx的主要内容,如果未能解决你的问题,请参考以下文章

刮痧。从div中提取html而不包装父标签

如何在 Python 中使用 Regex 从 HTML <a> 标签中提取 Facebook 页面 URL?

如何从<p> HTML标签中提取内容[重复]

c#用正则表达式提取小括号中的内容

用C#怎么提取a标签的超链接?

如何使用 regex.match 在 c# 中提取字符串的特定部分? [复制]