Java_爬虫,如何抓取Js动态生成数据的页面?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Java_爬虫,如何抓取Js动态生成数据的页面?相关的知识,希望对你有一定的参考价值。

很多网站是用js或Jquery 生成数据的,到后台获取到数据以后,用 document.write()或者("#id").html="" 的方式 写到页面中,这个时候用浏览器查看源码是看不到数据的。

HttpClient是不行的,看网上说HtmlUnit,说 可以获取后台js加载完后的完整页面,但是我按照文章上说的 写了 ,都不好使。

求解答,其中典型的就是这个链接的页面,怎么能在java程序中获取其中的数据?

http://xinjinqiao.tprtc.com/admin/main/flrpro.do

参考技术A 用nodejs+puppeteer,解析dom结构获取,或者直接观察返回数据的接口,看能不能直接调用 参考技术B HttpClient
怎么不行,都是请求,搞清楚地址,就有参数,都是一次访问,能抓到肯定行追问

HttpClient得到的是没有数据的页面,数据是js加载的

以上是关于Java_爬虫,如何抓取Js动态生成数据的页面?的主要内容,如果未能解决你的问题,请参考以下文章

如何用python爬取js动态生成内容的页面

如何抓取网页中的动态数据

爬虫之抓取js生成的数据

爬虫案例(js动态生成数据)

为啥浏览器可以保存网页中js动态内容,用java编写的爬虫却无法抓取

怎么爬取网页的动态内容,很多都是js动态生