Jsoup对象
Posted 风萧萧路漫漫
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Jsoup对象相关的知识,希望对你有一定的参考价值。
1.Jsoup:工具类,解析html,XML文档,加载文档进内存,获取dom树-->返回Document文档对象
parse():解析HTML和XML,返回Documet对象
重载方法
- parse(File in, String charsetName):解析HTML或XML文件的。(也就是需要存在一个File对象,物理文件)
- 常用于XML
- parse(String html):解析HTML或XML的字符串(字符串就是,HTML和XML的内容)
- 不常用
- parse(URL url, int timeoutMillis):通过网络路径获取指定的HTML或者XML的文档对象
-
timeoutMillis超时时间
-
获取的路径就是对应的HTML文档,这个HTML文档只不过是在浏览器上被解析成用户看到的界面。真实的数据还是代码
-
常用于HTML爬虫程序
-
例如比价网:慢慢买
-
2. Documet:文档对象=内存中DOM树
主要用来获取Element对象(document继承了node的下的element对象,能获取任意的Element对象)
- getElementById(String id):根据id属性值,获取唯一的element对象
- getElementsByTag(String tagName):根据标签名称,获取元素对象集合
- getElementsByAttribute(String key):根据属性名称,获取元素对象集合
- getElementsByAttributeValue(String key, String value):根据属性名称和属性值,获取元素对象集合
3.Elements:元素Element对象的集合。可以当做:泛型为Element的ArrayList集合
上面的倒数三个方法)
4.Element:元素对象。获取元素的名称、属性、文本
- 获取子元素对象(只能获取element对象的子标签)
-
getElementById(String id):根据id属性值,获取唯一的element对象
-
getElementsByTag(String tagName):根据标签名称,获取元素对象集合
-
getElementsByAttribute(String key):根据属性名称,获取元素对象集合
-
getElementsByAttributeValue(String key, String value):根据属性名称和属性值,获取元素对象集合
-
- 获取属性值(从node继承过来的方法)
- String attr(String key):根据属性名称获取属性值,通过传入的属性名称。属性名称不区分大小写
- String写在方法前面表示返回值
- 获取文本内容
- String text():获取子标签的纯文本内容
- String html():获取标签体的所有内容(包扩子标签的标签和文本)
5.Node:节点对象。是上面所有的爹
是Documet和Element的父类
以上是关于Jsoup对象的主要内容,如果未能解决你的问题,请参考以下文章