用java去除掉这段代码的HTML标签
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用java去除掉这段代码的HTML标签相关的知识,希望对你有一定的参考价值。
<ul class="attributes-list">
<li title=" 其它国内品牌">品牌: 其它国内品牌</li><li title=" 3EC92">货号: 3EC92</li><li title=" 头层牛皮">帮面材质: 头层牛皮</li><li title=" 真皮">内里材质: 真皮</li><li title=" 软面皮">皮质特征: 软面皮</li><li title=" 橡胶底">鞋底材质: 橡胶底</li><li title=" 骑士靴">女鞋流行靴款: 骑士靴</li><li title=" 长靴">筒高: 长靴</li><li title=" 圆头">鞋头: 圆头</li><li title=" 低跟(小于3cm)">跟高: 低跟(小于3cm)</li><li title=" 方跟">鞋跟形状: 方跟</li><li title=" 侧拉链">闭合方式: 侧拉链</li><li title=" 皮带扣">流行元素: 皮带扣</li><li title=" 胶粘鞋">制作工艺: 胶粘鞋</li><li title=" 黑色皮里 咖啡色皮里 咖啡色绒里 黑色绒里">颜色分类: 黑色皮里 咖啡色皮里 咖啡色绒里 黑色绒里</li><li title=" 35 36 37 38 39 40 41">尺码: 35 36 37 38 39 40 41</li><li title=" 纯色">图案: 纯色</li><li title=" 冬季">适合季节: 冬季</li><li title=" 201-500元">价格区间: 201-500元</li>
String htmlStr = inputString; //含html标签的字符串
String textStr ="";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
try
String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; //定义script的正则表达式或<script[^>]*?>[\\s\\S]*?<\\/script>
String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; //定义style的正则表达式或<style[^>]*?>[\\s\\S]*?<\\/style>
String regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式
p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); //过滤script标签
p_style = Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); //过滤style标签
p_html = Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); //过滤html标签
/* 空格 —— */
// p_html = Pattern.compile("\\ ", Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = htmlStr.replaceAll(" "," ");
textStr = htmlStr;
catch(Exception e)
return textStr;
传你的字符串进去看看,可以的话加分,谢谢 参考技术A String s = " <li title=" 其它国内品牌">品牌: 其它国内品牌</li>":
String p = "<[^>]*>":
s = s.replaceAll(p, s);
Java 18 新增@snipppet标签,注释中写样例代码更舒适了
在这次的Java 18中,新增了一个@snipppet
标签,主要用于JavaDoc中需要放示例代码的场景。其实在Java 18之前,已经有一个@code
标签,可以用于在JavaDoc中编写小段的代码内容,比如在之前介绍Simple Web Server视频中,提到的这段样例代码,就是用@code
标签来写的:
* <p> Example of a simple file server:
* <pre>@code
* var addr = new InetSocketAddress(8080);
* var server = SimpleFileServer.createFileServer(addr, Path.of("/some/path"), OutputLevel.INFO);
* server.start();
* </pre>
虽然以前版本已经有类似功能,但依然还有各种各样的缺点,所以这次的@snipppet
标签就在这些方面做了增强:
- 有效性检查,比如:当我们的样例代码中包含部分语法错误的时候,将会出现错误提示
- 语法高亮,如下图所示,使用
@snippet
的时候,IDE已经可以支持高亮,更有利于编辑,对比下@code
的 内容,编辑的时候就没那么舒服了
- 代码编辑时的IDE支持也有了很大的提升,以往使用
@code
来编辑代码的时候基本就是当纯文本来编辑的,而现在在使用@snippet
的时候,IDE给出了更多更好的支持,比如大家最喜欢的代码提示:
所以,这个功能DD觉得还是非常有用的,尤其是对于一些写框架和SDK的小伙伴(毕竟对JavaDoc的要求高)。
本篇内容对应视频已完成录制,点击查看:Java 18 新特性:@snipppet标签
如果您学习过程中如遇困难?可以加入我们超高质量的技术交流群,参与交流与讨论,更好的学习与进步!另外,不要走开,关注我!持续更新Java新特性教程!
欢迎关注我的公众号:程序猿DD。前沿技术早知道,弯道超车有希望!积累超车资本,从关注DD开始!
以上是关于用java去除掉这段代码的HTML标签的主要内容,如果未能解决你的问题,请参考以下文章
java 利用jsoup 如何去除一段代码中的所有html标签,只留纯文本