从 HTML 中提取文本的正则表达式
Posted
技术标签:
【中文标题】从 HTML 中提取文本的正则表达式【英文标题】:regular expression to extract text from HTML 【发布时间】:2010-09-15 21:59:52 【问题描述】:我想从一般 html 页面中提取所有文本(显示或不显示)。
我想删除
任何 HTML 标签 任何javascript 任何 CSS 样式是否有一个正则表达式(一个或多个)可以实现这一目标?
【问题讨论】:
另见***.com/questions/37486/…。 Beware of Zalgo 【参考方案1】:删除 javascript 和 CSS:
<(script|style).*?</\1>
删除标签
<.*?>
【讨论】:
//g 会带你去天堂之城。 谢谢,这真的简化了一切!【参考方案2】:您无法真正使用正则表达式解析 HTML。这太复杂了。 RE 根本无法正确处理 <![CDATA[
部分。此外,诸如&lt;text>
之类的一些常见 HTML 内容将在浏览器中作为正确的文本工作,但可能会使天真的 RE 感到困惑。
使用合适的 HTML 解析器会让您更快乐、更成功。 Python 人经常使用 Beautiful Soup 来解析 HTML 并去除标签和脚本。
此外,浏览器在设计上允许格式错误的 HTML。因此,您经常会发现自己试图解析显然不正确的 HTML,但在浏览器中却可以正常工作。
您也许可以使用 RE 解析错误的 HTML。它所需要的只是耐心和努力工作。但使用别人的解析器通常更简单。
【讨论】:
一定要使用专门的 HTML 解析器——不要自己动手!如果您使用 Ruby,我只是想建议 Hpricot。 为什么要需要一个正则表达式解决方案(在 php 中),它可以返回与 phpSimpleDOM 一样(或更好)的纯文本,只是要快得多。这是我想出的解决方案:
function plaintext($html)
// remove comments and any content found in the the comment area (strip_tags only removes the actual tags).
$plaintext = preg_replace('#<!--.*?-->#s', '', $html);
// put a space between list items (strip_tags just removes the tags).
$plaintext = preg_replace('#</li>#', ' </li>', $plaintext);
// remove all script and style tags
$plaintext = preg_replace('#<(script|style)\b[^>]*>(.*?)</(script|style)>#is', "", $plaintext);
// remove br tags (missed by strip_tags)
$plaintext = preg_replace("#<br[^>]*?>#", " ", $plaintext);
// remove all remaining html
$plaintext = strip_tags($plaintext);
return $plaintext;
当我在一些复杂的网站(论坛似乎包含一些更难解析的 html)上测试这个时,这个方法返回了与 PHPSimpleDOM 纯文本相同的结果,只是快得多。它还正确处理了列表项(li 标签),而 PHPSimpleDOM 没有。
至于速度:
SimpleDom:0.03248 秒。 正则表达式:0.00087 秒。快 37 倍!
【讨论】:
迄今为止最好的解决方案!使用方便!非常感谢! 您能详细说明一下吗?例如,考虑<li >
。 (有多余的空格)【参考方案4】:
考虑用正则表达式来做这件事是令人生畏的。你考虑过 XSLT 吗?提取 XHTML 文档中所有文本节点(减去脚本和样式内容)的 XPath 表达式将是:
//body//text()[not(ancestor::script)][not(ancestor::style)]【讨论】:
简单优雅 == 漂亮。 这可能会起作用,除了它还会从 确实如此,请参阅编辑。可能还有其他特殊情况,但这是一般的想法。 在现实世界的 HTML 页面上不起作用,即 HTML 是格式错误的非 XHTML。大多数 XML 解析器不支持“真实世界的 HTML”。这就是为什么我过去使用 HtmlAgilityPack (Google it) 来完成这类任务。 确实,这是一种持续的痛苦。另一种选择是使用 tidy 对页面进行预处理。【参考方案5】:使用 perl 语法定义正则表达式,开始可能是:
!<body.*?>(.*)</body>!smi
然后对该组的结果应用以下替换:
!<script.*?</script>!!smi
!<[^>]+/[ \t]*>!!smi
!</?([a-z]+).*?>!!smi
/<!--.*?-->//smi
这当然不会很好地将内容格式化为文本文件,但它会删除所有 HTML(大多数情况下,它可能无法正常工作)。一个更好的主意是使用 XML 解析器以您使用的任何语言正确解析 HTML 并从中提取文本。
【讨论】:
【参考方案6】:简单 HTML 的最简单方法(Python 中的示例):
text = "<p>This is my> <strong>example</strong>HTML,<br /> containing tags</p>"
import re
" ".join([t.strip() for t in re.findall(r"<[^>]+>|[^<]+",text) if not '<' in t])
返回这个:
'This is my> example HTML, containing tags'
【讨论】:
【参考方案7】:这是一个删除最复杂的 html 标签的函数。
function strip_html_tags( $text )
$text = preg_replace(
array(
// Remove invisible content
'@<head[^>]*?>.*?</head>@siu',
'@<style[^>]*?>.*?</style>@siu',
'@<script[^>]*?.*?</script>@siu',
'@<object[^>]*?.*?</object>@siu',
'@<embed[^>]*?.*?</embed>@siu',
'@<applet[^>]*?.*?</applet>@siu',
'@<noframes[^>]*?.*?</noframes>@siu',
'@<noscript[^>]*?.*?</noscript>@siu',
'@<noembed[^>]*?.*?</noembed>@siu',
// Add line breaks before & after blocks
'@<((br)|(hr))@iu',
'@</?((address)|(blockquote)|(center)|(del))@iu',
'@</?((div)|(h[1-9])|(ins)|(isindex)|(p)|(pre))@iu',
'@</?((dir)|(dl)|(dt)|(dd)|(li)|(menu)|(ol)|(ul))@iu',
'@</?((table)|(th)|(td)|(caption))@iu',
'@</?((form)|(button)|(fieldset)|(legend)|(input))@iu',
'@</?((label)|(select)|(optgroup)|(option)|(textarea))@iu',
'@</?((frameset)|(frame)|(iframe))@iu',
),
array(
' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ',
"\n\$0", "\n\$0", "\n\$0", "\n\$0", "\n\$0", "\n\$0",
"\n\$0", "\n\$0",
),
$text );
// Remove all remaining tags and comments and return.
return strip_tags( $text );
【讨论】:
【参考方案8】:如果您使用的是 PHP,请尝试使用 SourceForge 提供的 Simple HTML DOM。
否则,谷歌 html2text,你会发现不同语言的各种实现,它们基本上使用一系列正则表达式来吸出所有标记。这里要小心,因为有时会留下没有结尾的标签,以及特殊字符,例如 &(即 &)。
另外,请注意 cmets 和 Javascript,因为我发现处理正则表达式特别烦人,以及为什么我通常更喜欢让免费的解析器为我完成所有工作。
【讨论】:
【参考方案9】:我相信你可以做到
document.body.innerText
这将返回文档中所有文本节点的内容,无论是否可见。
[edit (olliej): sigh 没关系,这只适用于 Safari 和 IE,而且我也懒得每晚下载一个 firefox 来查看它是否存在于主干中:-/ ]
【讨论】:
不,在 FF3 中未定义 textContent 是标准等效项【参考方案10】:你不能只使用 C# 提供的 WebBrowser 控件吗?
System.Windows.Forms.WebBrowser wc = new System.Windows.Forms.WebBrowser();
wc.DocumentText = "<html><body>blah blah<b>foo</b></body></html>";
System.Windows.Forms.HtmlDocument h = wc.Document;
Console.WriteLine(h.Body.InnerText);
【讨论】:
【参考方案11】:string decode = System.Web.HttpUtility.HtmlDecode(your_htmlfile.html);
Regex objRegExp = new Regex("<(.|\n)+?>");
string replace = objRegExp.Replace(g, "");
replace = replace.Replace(k, string.Empty);
replace.Trim("\t\r\n ".ToCharArray());
then take a label and do "label.text=replace;" see on label out put
.
【讨论】:
而不是 "g" 放入行代码: string replace = objRegExp.Replace(decode, ""); 而不是 "g" 放入行代码: string replace = objRegExp.Replace(decode, "");以上是关于从 HTML 中提取文本的正则表达式的主要内容,如果未能解决你的问题,请参考以下文章