用java去除掉这段代码的HTML标签

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用java去除掉这段代码的HTML标签相关的知识,希望对你有一定的参考价值。

<ul class="attributes-list">
<li title=" 其它国内品牌">品牌: 其它国内品牌</li><li title=" 3EC92">货号: 3EC92</li><li title=" 头层牛皮">帮面材质: 头层牛皮</li><li title=" 真皮">内里材质: 真皮</li><li title=" 软面皮">皮质特征: 软面皮</li><li title=" 橡胶底">鞋底材质: 橡胶底</li><li title=" 骑士靴">女鞋流行靴款: 骑士靴</li><li title=" 长靴">筒高: 长靴</li><li title=" 圆头">鞋头: 圆头</li><li title=" 低跟(小于3cm)">跟高: 低跟(小于3cm)</li><li title=" 方跟">鞋跟形状: 方跟</li><li title=" 侧拉链">闭合方式: 侧拉链</li><li title=" 皮带扣">流行元素: 皮带扣</li><li title=" 胶粘鞋">制作工艺: 胶粘鞋</li><li title=" 黑色皮里 咖啡色皮里 咖啡色绒里 黑色绒里">颜色分类: 黑色皮里 咖啡色皮里 咖啡色绒里 黑色绒里</li><li title=" 35 36 37 38 39 40 41">尺码: 35 36 37 38 39 40 41</li><li title=" 纯色">图案: 纯色</li><li title=" 冬季">适合季节: 冬季</li><li title=" 201-500元">价格区间: 201-500元</li>

public static String HtmlText(String inputString)
String htmlStr = inputString; //含html标签的字符串
String textStr ="";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
try
String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; //定义script的正则表达式或<script[^>]*?>[\\s\\S]*?<\\/script>
String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; //定义style的正则表达式或<style[^>]*?>[\\s\\S]*?<\\/style>
String regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式

p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); //过滤script标签

p_style = Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); //过滤style标签

p_html = Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); //过滤html标签

/* 空格 ——   */
// p_html = Pattern.compile("\\ ", Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = htmlStr.replaceAll(" "," ");

textStr = htmlStr;

catch(Exception e)

return textStr;


传你的字符串进去看看,可以的话加分,谢谢
参考技术A String s = " <li title=" 其它国内品牌">品牌: 其它国内品牌</li>":
String p = "<[^>]*>":
s = s.replaceAll(p, s);

Java 18 新增@snipppet标签,注释中写样例代码更舒适了

在这次的Java 18中,新增了一个@snipppet标签,主要用于JavaDoc中需要放示例代码的场景。其实在Java 18之前,已经有一个@code标签,可以用于在JavaDoc中编写小段的代码内容,比如在之前介绍Simple Web Server视频中,提到的这段样例代码,就是用@code标签来写的:

 * <p> Example of a simple file server:
 * <pre>@code
 *    var addr = new InetSocketAddress(8080);
 *    var server = SimpleFileServer.createFileServer(addr, Path.of("/some/path"), OutputLevel.INFO);
 *    server.start();
 * </pre>

虽然以前版本已经有类似功能,但依然还有各种各样的缺点,所以这次的@snipppet标签就在这些方面做了增强:

  • 有效性检查,比如:当我们的样例代码中包含部分语法错误的时候,将会出现错误提示

  • 语法高亮,如下图所示,使用@snippet的时候,IDE已经可以支持高亮,更有利于编辑,对比下@code的 内容,编辑的时候就没那么舒服了

  • 代码编辑时的IDE支持也有了很大的提升,以往使用@code来编辑代码的时候基本就是当纯文本来编辑的,而现在在使用@snippet的时候,IDE给出了更多更好的支持,比如大家最喜欢的代码提示:

所以,这个功能DD觉得还是非常有用的,尤其是对于一些写框架和SDK的小伙伴(毕竟对JavaDoc的要求高)。

本篇内容对应视频已完成录制,点击查看:Java 18 新特性:@snipppet标签

如果您学习过程中如遇困难?可以加入我们超高质量的技术交流群,参与交流与讨论,更好的学习与进步!另外,不要走开,关注我!持续更新Java新特性教程!

欢迎关注我的公众号:程序猿DD。前沿技术早知道,弯道超车有希望!积累超车资本,从关注DD开始!

以上是关于用java去除掉这段代码的HTML标签的主要内容,如果未能解决你的问题,请参考以下文章

用java字符串方法去除HTML代码标签的问题

java 利用jsoup 如何去除一段代码中的所有html标签,只留纯文本

java正则表达式去除html标签

向各位正则高手请教:java 如何用正则 ,去除html标签之间的空格

java正则表达式去除html标签保留指定标签

html中为啥会自动增加span标签,会自动换行,不想要这个自动的功能,怎么去除