jsoupa-解析遍历一个HTML
Posted 风中飞沙
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了jsoupa-解析遍历一个HTML相关的知识,希望对你有一定的参考价值。
解析个遍历一个html文档
String html ="<html><head><title>First parse</title></head>" +"<body><p>Parsed HTML into a doc.</p></body></html>"; Document doc =Jsoup.parse(html);
jsoup解析器能够尽最大可能从html文档来创建一个干净的解析结果,无论html的格式是否完整。
jsoup可以处理如下异常情况
*)没有关闭的标签(比如<p>Lorem<p>Ipsum parses to <p>Lorm</p><p>Ipsum</p>)
*)隐式标签(比如它可以自动将<td>Table data </td>包装成<table><tr><td>....)
*)创建可靠的文档结果(html标签包含head和body,在head值出现恰当的元素)
一个文档的对象模型
*)文档由多个Elements和TextNodes组成(以及其他辅助nodes)
其继承结构如下
Document继承Element继承NodeTextNode继承Node
*)一个Element包含一个子节点集合,并拥有一个父Element。
还提供一个唯一的子元素过滤列表
<wiz_tmp_tag id="wiz-table-range-border" contenteditable="false" style="display: none;">
以上是关于jsoupa-解析遍历一个HTML的主要内容,如果未能解决你的问题,请参考以下文章