正则表达式:擦洗 HTML
Posted
技术标签:
【中文标题】正则表达式:擦洗 HTML【英文标题】:Regex: Scrub HTML 【发布时间】:2011-06-16 22:29:56 【问题描述】:我有一堆 html 代码,我想在其中删除所有 HTML 标记。
我认为这可以通过 Regex(正则表达式)实现。使用搜索和替换,我将如何做到这一点?
我尝试了 ,我认为 * 是通配符,但显然不是。 我如何让正则表达式找到所有 ?
【问题讨论】:
使用记事本++,但应该与任何带有正则表达式和搜索和替换的编辑器一起使用 e.g. 的问题呢? … 和 &等 HTML 字符代码?这里没有解决方案。 Oy vay,用正则表达式转换所有这些会很讨厌。 【参考方案1】:在搜索模式中选择“正则表达式”。在 Find What 字段中输入 [<].*?>
并将 Replace With 字段留空。
【讨论】:
【参考方案2】:一个简单的版本是:
<[^>]+>
[]
定义一个字符类,^
不包括字符。这是example。
【讨论】:
【参考方案3】:看看这个:http://haacked.com/archive/2004/10/25/usingregularexpressionstomatchhtml.aspx
【讨论】:
以上是关于正则表达式:擦洗 HTML的主要内容,如果未能解决你的问题,请参考以下文章