Jsoup 配置和使用

Posted 可爱的黑精灵

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Jsoup 配置和使用相关的知识,希望对你有一定的参考价值。

基于Javahtml解析器Jsoup的简单介绍

Jsoup 下载

Jsoup是一个基于Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。

  • 使用Maven下载:
    (Maven使用可以参照以往的博客)

        <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.9.2</version>
        </dependency>

Jsoup 使用

特点:

  • 没有关闭的标签 (比如:

    Lorem

    Ipsum parses to

    Lorem

    Ipsum

    )
  • 隐式标签 (比如. 它可以自动将 Table data包装成
    ?)
  • 创建可靠的文档结构(html标签包含head 和 body,在head只出现恰当的元素)
  1. 1 Jsoup.parse(String html)和Jsoup.parse(String html, String baseUri); // 解析一个HTMl字符串
  2. 2 Jsoup.parseBodyFragment(String html); // 解析一个body片断
  3. 3 Jsoup.connect(String url); //从一个URL解析一个Document 可以通过选择器来查找元素
  4. 4 Jsoup.parse(File in, String charsetName, String baseUri); //从本地加载一个文档

  • 解析一个HTMl字符串

         String html = "<html><head><meta charset=‘UTF-8‘><title>three.js</title></head><body>"+ 
                       "<script type=‘text/javascript‘ src=‘js/Three/three.js‘></script>"+  
                       "<script></script></body></html>"; 
         Document doc = Jsoup.parse(html); 
         System.out.println(doc);
         

output:


        <html>
         <head>
          <meta charset="UTF-8" />
          <title>three.js</title>
         </head>
         <body>
          <script type="text/javascript" src="js/Three/three.js"></script>
          <script></script>
         </body>
        </html>

  • 解析一个URL,这里我们解析的是Google的首页的登陆按钮(按钮id:gb_70)然后回去按钮的文本。

         Document google = Jsoup.connect("https://www.google.com.hk/").get(); 
         
         Element login = google.getElementById("gb_70");
         
         System.out.println(login.text());
         

output:登入


以上是关于Jsoup 配置和使用的主要内容,如果未能解决你的问题,请参考以下文章

使用Jsoup解析html网页

使用Spring Data ElasticSearch+Jsoup操作集群数据存储

jsoup - 去除所有格式和链接标签,只保留文本

Jsoup学习和使用

Jsoup代码示例解析网页+提取文本

使用 Google Refine/OpenRefine & Jsoup/BeautifulSoup 解析和删除 HTML 标签