正则表达式 提取 html 标签的内容

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了正则表达式 提取 html 标签的内容相关的知识,希望对你有一定的参考价值。


<span style=''>内容</span><img src=".."/>内容<p><input .../>内容</p>

只提取里面的 “内容”
如果第一个有就提取第一个,如果第一个内容不存在就提取第二个“内容”,以此类推,不提取标签! 麻烦各位了!

参考技术A string str = File.ReadAllText("D:\\1.txt", Encoding.Default);
str = Regex.Match(str, @"(?is)(?<=>)[^<>]+(?=<)").Value;
Console.WriteLine(str);追问

请问下 ?是什么意思呢? 和 刚学习这东西 感觉难!

还有这个表达式对 语句出现在 标签外面不起作用 比如: 好东西好东西

就是标签外面的匹配不到? 该如何改呢

参考技术B /<.*?>(.+)<\/.*?>/
不过只针对同级标签,嵌套不适用
参考技术C $html = '<span style=''>内容1</span><img src=".."/>内容2<p><input .../>内容3</p>';

preg_match("/<.+?>(.+?)<.+?>/", $html, $content);
echo $content[1];
//以上是php中的做法
参考技术D $html = '<span style=''>内容1</span><img src=".."/>内容2<p><input .../>内容3</p>';

preg_match("/<.+?>(.+?)<.+?>/", $html, $content);
echo $content[1];
//以上是PHP中的做法

php正则表达式提取img alt/title标签并替换

有时我们需要对富文本编辑器中的img标签进行必要的处理以满足网站自身的需要,比如:根据站点关键词对页面内img的alt标签设定关键词,以下为提取并替换alt/title标签内容的正则:

$title = "需要替换的内容..."
$pattern= "/<img.*?src=["|‘](.*?)["|‘].*?>/"; $replace = ‘<img src="$1" alt="‘.$title.‘"title="‘.$title.‘">‘; $html = preg_replace($patter, $replace, $content);

以上是关于正则表达式 提取 html 标签的内容的主要内容,如果未能解决你的问题,请参考以下文章

用于提取 HTML 正文内容的正则表达式

php正则表达式提取img alt/title标签并替换

实例JS 正则表达式提取 html 中纯文本,去掉样式,其它标签

实例JS 正则表达式提取 html 中纯文本,去掉样式,其它标签

实例JS 正则表达式提取 html 中纯文本,去掉样式,其它标签

实例JS 正则表达式提取 html 中纯文本,去掉样式,其它标签