java jsoup怎样爬取特定网页内的数据

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了java jsoup怎样爬取特定网页内的数据相关的知识,希望对你有一定的参考价值。

1、Jsoup简述

Java中支持的爬虫框架有很多,比如WebMagic、Spider、Jsoup等。
​ Jsoup拥有十分方便的api来处理html文档,比如参考了DOM对象的文档遍历方法,参考了CSS选择器的用法等等,因此我们可以使用Jsoup快速地掌握爬取页面数据的技巧。

2、快速开始

1)分析HTML页面,明确哪些数据是需要抓取的

2)使用HttpClient读取HTML页面
HttpClient是一个处理Http协议数据的工具,使用它可以将HTML页面作为输入流读进java程序中.

3)使用Jsoup解析html字符串
通过引入Jsoup工具,直接调用parse方法来解析一个描述html页面内容的字符串来获得一个Document对象。该Document对象以操作DOM树的方式来获得html页面上指定的内容。

3、保存爬取的页面数据

1)保存普通数据到数据库中
将爬取的数据封装进实体Bean中,并存到数据库内。

2)保存图片到服务器上
直接通过下载图片的方式将图片保存到服务器本地。
参考技术A 方法/步骤

本次经验是通过导入外部Jar进行对网页数据进行抓取,以下是我工程的分布图。

本例子中是使用Jquery进行处理页面事件

页面展示

后台是在siteproxy.jsp中进行处理

5
最后将这其中需要的几个文件部署在此工程中去本回答被提问者采纳

怎样用爬取网页中的pdf的内容

可以借助一些采集工具实现批量采集网页中的文档链接,再利用工具下载文档后转格式复制粘贴 参考技术A 文字的话,先截屏保存,再用ocr软件识别。

以上是关于java jsoup怎样爬取特定网页内的数据的主要内容,如果未能解决你的问题,请参考以下文章

java jsoup 爬虫 怎么防止重复爬取

java爬取网页数据

java通过Jsoup爬取网页(入门教程)

手把手带你用Java爬取网站数据

Java jsoup爬取图片

python3 怎样爬取动态加载的网页信息