通过jsoup工具实现java解析html

Posted Warren技术宅

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了通过jsoup工具实现java解析html相关的知识,希望对你有一定的参考价值。

       最近闲来无事,写了几个网页数据抓取的小程序。网页抓取最头疼的就是对html标签的解析,解析过程中一般用到的方法就是正则表达式,无奈博主只是会一点正则表达式的皮毛,查文档,找实例,搞了大半天也没写出几个合适的正则表达式。正在博主束手无策的时候,突然发现了这个开源的小工具,用起来是相当的顺手啊。一天的时间就写好了对百度贴吧,猫扑和天涯相关图片文章的抓取。jsoup真是宅男居家必备神奇啊!!!

soup的主要功能如下:

1. 从一个URL,文件或字符串中解析HTML; 2. 使用DOM或CSS选择器来查找、取出数据; 3. 可操作HTML元素、属性、文本; jsoup是基于MIT协议发布的,可放心使用于商业项目。

由于jsoup 良好的可扩展性API 设计,你可以通过选择器的定义来开发出非常强大的HTML 解析功能。再加上jsoup 项目本身的开发也非常活跃,因此如果你正在使用Java ,需要对HTML 进行处理,不妨试试。

更详细的jsoup使用方法都在我上传的资源中有详细介绍,有兴趣的可以下载下来玩玩

相关资源下载地址:http://download.csdn.net/detail/u012756886/6521659

以上是关于通过jsoup工具实现java解析html的主要内容,如果未能解决你的问题,请参考以下文章

Jsoup,一款超好用的HTML文本解析Java工具

Jsoup,一款超好用的HTML文本解析Java工具

Java爬虫利器HTML解析工具-Jsoup

Java 爬虫工具Jsoup解析

(转载)Html解析工具Jsoup

JSoup——用Java解析html网页内容