jsoup 源码分析

Posted gone_1

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了jsoup 源码分析相关的知识,希望对你有一定的参考价值。

jsoup 使用于从html 抽取出符合规则的标签,字符串,使用也非常简单。主要是两个函数,

Document parse = Jsoup.parse(apiResult);
Elements eles = body.select("#search_book_list li");

有图有真相。

下面来分析下这两个函数:

1。 Jsoup.read( "  html "),  是把html 字符串解析成 Element 对象,形成一棵Element 树,我们在Element 中可以看到 List<Node>, 以及parentNode,  这是构成树的基本元素。下面分析下形成树的过程,用到了 Parser,  HtmlTreeBuilder ,HtmlTreeBuilderState, Token,  Tokenier .  其中 HtmlTreeBuilder 是解析字符串形成树的入口 .

Token 可以理解为一个个字符,(StartTag,EndTag,Comment,) , Tokenier 分析当前Token的不同类型。 

HtmlTreeBuilderState 实例如(Initial, BeforeHead, InHead,BeforeBody,InBody ),根椐Token不同,形成不同的Node对象,并播入到Elements中

Jsoup.read() -->  Parser.parse () -->  TreeBuilder.parse --> HtmlTreeBuilder.runParser()

tokeniser.read()-->  Tokensier.read() -- > TokeniserState.read()

HtmlTreeBuilder.process() --> HtmlTreeBuilderState.process() --> BeforeHead, BeforeBody. process -- > HtmlTreeBuilder.insert() 

         

 

这是在TreeBuilder 中关键的过程, tokeniser 把token 一个个读出来,process 根椐token不同类型 解析形成Node, 插入到Document 中,形成树结构。

 

 

这里HtmlTreeBuilderState 用enum结构。

 

 

 

2。 Document.parse(" #id") :  这里面分两部,先把#id 字符串解析,形成Evaluator,  然后遍历Document 对象,把符合条件的Element 对象拿出来,形成List<Element> 返回。 这里用到了Selector, QueryParser, Evaluator,  TokenQueue( 第一步),     NodeVisitor,NodeTraversor(第二步).

 

 

从这可以看出这两步走,QueryParser.parse() 解析形成Evaluator,  select() 遍历从root 中找出Element 。

Evaluator 有很多子类, 其中比较熟悉的 idEvaluator,classEvaluator,TagEvaluator 分别是表示找id, class ,tag 。 CombiningEvaluator 是表示And, or 连接对象。

 

这是在QueryParser 中, tq 分析形成Evaluator 的过程:

 

 

第二步查找:

NodeTraversor  是遍历整个root 对象,借助NodeVisitor 来实现。

NodeVisitor 有两个方法,head, tail .  

可以看出Traversor 是深度优先遍历算法。

 

 

 

 

 

 

   

以上是关于jsoup 源码分析的主要内容,如果未能解决你的问题,请参考以下文章

Android 插件化VirtualApp 源码分析 ( 目前的 API 现状 | 安装应用源码分析 | 安装按钮执行的操作 | 返回到 HomeActivity 执行的操作 )(代码片段

Android 逆向整体加固脱壳 ( DEX 优化流程分析 | DexPrepare.cpp 中 dvmOptimizeDexFile() 方法分析 | /bin/dexopt 源码分析 )(代码片段

jsoup解析xml某片段的问题

Android 事件分发事件分发源码分析 ( Activity 中各层级的事件传递 | Activity -> PhoneWindow -> DecorView -> ViewGroup )(代码片段

jsoup抓取页面源码的问题、源码被隐藏、

jsoup教程