自己写了一个爬虫，求教如何在网页上爬取动态加载的信息。

Posted 2023-05-15

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了自己写了一个爬虫，求教如何在网页上爬取动态加载的信息。相关的知识，希望对你有一定的参考价值。

自己写了一个爬虫在爬取网页上动态加载的信息的时候不知道该怎么办。
我只是爬取几个特定网站的动态内容，比如搜狐新闻的评论
http://pinglun.sohu.com/s388990524.html
在网页的源文件中也没有看到有用的内容
在网上大概浏览了一下，说的都很笼统和模糊
求助各位大神，希望能以我给的那个链接为例子，详细地描述一下怎么去拿到它的评论。

参考技术A 它是通过其他请求获取到底数据，你可以下载个web proxy看网站传输率些什么数据，就能找到地址。charlesproxy

Java_爬虫，如何抓取Js动态生成数据的页面？

很多网站是用js或Jquery 生成数据的，到后台获取到数据以后，用 document.write()或者("#id").html="" 的方式写到页面中，这个时候用浏览器查看源码是看不到数据的。

HttpClient是不行的，看网上说HtmlUnit，说可以获取后台js加载完后的完整页面，但是我按照文章上说的写了，都不好使。

求解答，其中典型的就是这个链接的页面，怎么能在java程序中获取其中的数据？

http://xinjinqiao.tprtc.com/admin/main/flrpro.do

参考技术A 用nodejs+puppeteer，解析dom结构获取，或者直接观察返回数据的接口，看能不能直接调用参考技术B HttpClient
怎么不行，都是请求，搞清楚地址，就有参数，都是一次访问，能抓到肯定行追问

HttpClient得到的是没有数据的页面，数据是js加载的

以上是关于自己写了一个爬虫，求教如何在网页上爬取动态加载的信息。的主要内容，如果未能解决你的问题，请参考以下文章

我现在有一套在网站上爬取数据的程序(用python写的)如何在服务器运行

Scala实现简易爬虫

Java_爬虫，如何抓取Js动态生成数据的页面？

爬虫第一步遇到的坑

初始爬虫

如何使用java写一个轻量的爬取动态内容的爬虫