java 如何去除html中的一个指定标签和指定标签里的内容

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了java 如何去除html中的一个指定标签和指定标签里的内容相关的知识,希望对你有一定的参考价值。

用java代码去除html中的一个指定标签和指定标签里的内容

java处理html指定标签最好用正则表达式。例如要去除html中所有的h1标签和类容就可以用下面的演示代码:

package konw.reg;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RemoveTag

    public static void main(String[] args)
    
        FileReader fr;
        String content =null;
        String regex = "<[Hh]1>.*</[Hh]1>";
        try
        
            fr = new FileReader("tag.html");
            BufferedReader br = new BufferedReader(fr);
            String str = null;
            StringBuffer sb = new StringBuffer();
            while((str = br.readLine()) != null)
            
                sb.append(str+"\\n");
            
            content = sb.toString();
            br.close();
            
         catch (FileNotFoundException e)
        
            e.printStackTrace();
         catch (IOException e)
        
            e.printStackTrace();
        
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(content);
        StringBuffer sb1 = new StringBuffer();
        while(matcher.find())
        
            sb1.append(matcher.replaceAll("")+"\\n");
        
        try
        
            FileWriter fw = new FileWriter("tag.html");
            BufferedWriter bw = new BufferedWriter(fw);
            fw.write(sb1.toString());
            bw.close();
         catch (IOException e)
        
            e.printStackTrace();
        
    

参考技术A 你好,可以用正则表达式。比如想要去除id为test的div标签及其内容:
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Person
public static void main(String[] args)
//正则表达式
Pattern p = Pattern.compile("<div.*id='test'.*</div>");
//测试用的html代码
String str = "<html><body>aa<div id='test'>bb</div></body></html>";
Matcher m = p.matcher(str);
//去除标签
String result = m.replaceAll("");

System.out.println(result);

本回答被提问者和网友采纳
参考技术B java不行,得javascript
用getElementById()方法获取该标签,然后对标签进行操作
参考技术C

JavaScript?


给定标签一个id, 譬如 labe_xxx

$("#label_xxx").empty();

$("#label_xxx").remove();

追问

java 处理html

html书写一个基本页面

用HTML书写一个基本页面,标题为“测试页面”,内部中嵌入一个位于当前目录下,文件名为scence.jpg的图片,用这张图片作为链接提示,当单击图形后,将导航到www.163.com

1、新建html文档,在html文档中输入网页的基本元素,然后设置网页的标题为“测试页面”:

2、在body标签中添加img标签,然后为这个标签添加“src”属性,属性值为“./scence.jpg”:

3、在img标签中嵌套一个a标签,为这个标签添加href属性,属性值为原题中的地址,这时点击图片将会导航到163官网:

参考技术A

html书写一个基本页面 方法:

工具:

Macromedia Dreamweaver 8软件

操作方法步骤:

1、先新建一个HTML文件,如下图,为测试。

2、编译HTML,以最简单的代码格式为例


3、在<body></body>写入你要写的内容,下面以这是一个HTML网页为例

4、修改文件插件这代码跟文本字html。

5、测试是否成功,双击  测试.html,如果出现了下面的内容

参考技术B <!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>测试页面</title>
</head>

<body>
<a href="http://www.163.com"><img src="scence.jpg" /></a>
</body>
</html>
参考技术C <!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>测试页面</title>
<meta name="author" content="鰟鮍鱼" />
<meta name="keywords" content="" />
<meta name="description" content="" />
</head>

<body>
    <a href="http://www.163.com"><img src="scence.jpg" width="" height="" alt="" /></a>
</body>
</html>

参考技术D <html>
<head>
<title>简单html页面</title>
</head>

<body>
<h1>这是一个简单的html页面</h1>
</bod>

</html>

以上是关于java 如何去除html中的一个指定标签和指定标签里的内容的主要内容,如果未能解决你的问题,请参考以下文章

如何在一个字符串去掉指定字符串?

JS如何去除指定字符串

java爬虫抓取指定数据

java 利用jsoup 如何去除一段代码中的所有html标签,只留纯文本

Java中break和continue跳出指定循环

JAVA中如何去除字符串前后的全角空格(当中保留)?