正则表达式:擦洗 HTML

Posted

技术标签:

【中文标题】正则表达式:擦洗 HTML【英文标题】:Regex: Scrub HTML 【发布时间】:2011-06-16 22:29:56 【问题描述】:

我有一堆 html 代码,我想在其中删除所有 HTML 标记。

我认为这可以通过 Regex(正则表达式)实现。使用搜索和替换,我将如何做到这一点?

我尝试了 ,我认为 * 是通配符,但显然不是。 我如何让正则表达式找到所有 ?

【问题讨论】:

使用记事本++,但应该与任何带有正则表达式和搜索和替换的编辑器一起使用 e.g. 的问题呢? … 和 &等 HTML 字符代码?这里没有解决方案。 Oy vay,用正则表达式转换所有这些会很讨厌。 【参考方案1】:

在搜索模式中选择“正则表达式”。在 Find What 字段中输入 [<].*?> 并将 Replace With 字段留空。

【讨论】:

【参考方案2】:

一个简单的版本是:

<[^>]+>

[] 定义一个字符类,^ 不包括字符。这是example。

【讨论】:

【参考方案3】:

看看这个:http://haacked.com/archive/2004/10/25/usingregularexpressionstomatchhtml.aspx

【讨论】:

以上是关于正则表达式:擦洗 HTML的主要内容,如果未能解决你的问题,请参考以下文章

正则表达式用法

Python——正则表达式

Python正则表达式指南

160224常用正则表达式

python正则表达式

python正则表达式