去掉word冗余格式 java正则表达式

Posted 海角飞鱼

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了去掉word冗余格式 java正则表达式相关的知识,希望对你有一定的参考价值。

word转换html时,会留下很多格式,有些格式并不是我们所需要的,然而这些格式比真正的文章内容还要多,严重影响页面的加载速度,因此就需要找个一个好的解决方案把这些多余的格式个去掉。网上有很多去除word冗余格式的js版的正则表达式,这里只提供java版的正则表达式。

1.public static String clearWordFormat(String content) {  
2.    //把<P></P>转换成</div></div>保留样式  
3.    //content = content.replaceAll("(<P)([^>]*>.*?)(<\\/P>)", "<div$2</div>");  
4.    //把<P></P>转换成</div></div>并删除样式  
5.    content = content.replaceAll("(<P)([^>]*)(>.*?)(<\\/P>)", "<p$3</p>");  
6.    //删除不需要的标签  
7.    content = content.replaceAll("<[/]?(font|FONT|span|SPAN|xml|XML|del|DEL|ins|INS|meta|META|[ovwxpOVWXP]:\\w+)[^>]*?>", "");  
8.    //删除不需要的属性  
9.    content = content.replaceAll("<([^>]*)(?:lang|LANG|class|CLASS|style|STYLE|size|SIZE|face|FACE|[ovwxpOVWXP]:\\w+)=(?:‘[^‘]*‘|\"\"[^\"\"]*\"\"|[^>]+)([^>]*)>", "<$1$2>");  
10.    //删除<STYLE TYPE="text/css"></STYLE>及之间的内容  
11.    int styleBegin = content.indexOf("<STYLE");  
12.    int styleEnd = content.indexOf("</STYLE>") + 8;  
13.    String style = content.substring(styleBegin, styleEnd);  
14.    content = content.replace(style, "");  
15.    return content;  
16.}  

 

以上是关于去掉word冗余格式 java正则表达式的主要内容,如果未能解决你的问题,请参考以下文章

如何使用java正则去掉这个字符串的引号

java正则表达式去掉指定字符串

Java 使用正则表达式

java字符串里面如何用正则表达式去掉汉字?

java 正则表达式去掉'号

一个利用正则表达式进行代码重构,去除冗余代码的例子