HtmlParser中的各种Filter

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HtmlParser中的各种Filter相关的知识,希望对你有一定的参考价值。

所有的Filter均实现了NodeFilter接口,此接口只有一个方法Boolean accept(Node node),用于确定某个节点 是否属于此Filter过滤的范围。 htmlParser在org.htmlparser.filters包之内一共定义了16个不同的Filter,也可以分为几类。

判断类Filter: TagNameFilter

                  HasAttributeFilter

                  HasChildFilter

                  HasParentFilter

                  HasSiblingFilter

                  IsEqualFilter

逻辑运算Filter

                  AndFilter

                  NotFilter

                  OrFilter

                  XorFilter

其他Filter:

                 NodeClassFilter

                 StringFilter

                 LinkStringFilter

                 LinkRegexFilter

                 RegexFilter

                 CssSelectorNodeFilter

除此之外,可以自定义一些Filter,用于完成特殊需求的过滤

 

Tag类

  主要和NodeClassFilter配合使用

         Remark:注释

         AppletTag:

         BaseHrefTag:

         Body Tag:"BODY";//getBody();内部调用额是toPlainTextString();

         Bullet:"LI"

         BulletList:"UL","OL"

         CompositeTag:

         DefinitionList:"DL"

         DefinitionListBullet:"DD","DT"

         Div:"DIV"

         DoctypeTag:“!DOCTYPE"

         FormTag:

         FrameSetTag:

         FrameTag:

         HeadingTag:"H1","H2","H3","H4","H5","H6"

         HeadTag:"HEAD"

         Html:"HTML"

         ImageTag:

         InputTag:"INPUT"

         JspTag:"%","%=","%@"

         LabelTag:"LABEL"

        

         LinkTag:

         MetaTag:

         ObjectTag:

         OptionTag:

         ParagraphTag:"P"

         ProcessingInstructionTag:"?"

         ScriptTag:

         SelectTag:"SELECT"

         Span:"SPAN"

         StyleTag:"STYLE"

          TableColumn:"TD"

          TableHeader:"TH"

          TableRow:"TR"

          TableTag:"TABLE"

          TagNode:

          TextareaTag:"TEXTAREA"

          TitleTag:"TITLE"

           TextNode:

        

 

以上是关于HtmlParser中的各种Filter的主要内容,如果未能解决你的问题,请参考以下文章

在 Python 3.2 中使用 HTMLParser

js简洁代码片段

将多个输出中的hls属性设置为单独的片段代码

使用Jsoup解析html网页

python网络爬虫之LXML与HTMLParser

vbscript 各种自定义代码片段 - 有关详细信息,请参阅注释