PHP 使用正则表达式清理Word HTML

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PHP 使用正则表达式清理Word HTML相关的知识,希望对你有一定的参考价值。

function cleanHTML($html) {
/// <summary>
/// Removes all FONT and SPAN tags, and all Class and Style attributes.
/// Designed to get rid of non-standard Microsoft Word HTML tags.
/// </summary>
// start by completely removing all unwanted tags

$html = ereg_replace("<(/)?(font|span|del|ins)[^>]*>","",$html);

// then run another pass over the html (twice), removing unwanted attributes

$html = ereg_replace("<([^>]*)(class|lang|style|size|face)=(\"[^\"]*\"|'[^']*'|[^>]+)([^>]*)>","<\\1>",$html);
$html = ereg_replace("<([^>]*)(class|lang|style|size|face)=(\"[^\"]*\"|'[^']*'|[^>]+)([^>]*)>","<\\1>",$html);

return $html
}

以上是关于PHP 使用正则表达式清理Word HTML的主要内容,如果未能解决你的问题,请参考以下文章

有没有办法通过将 php 保存到数据库中来清理 HTML 代码? [复制]

php 正则表达式

正则表达式中的php变量?

php正则表达式

grep 正则表达式的使用方法

没有标记就不能清理网络爬虫吗?用正则表达式是否不能让它干净?