自己写了一个爬虫,求教如何在网页上爬取动态加载的信息。
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了自己写了一个爬虫,求教如何在网页上爬取动态加载的信息。相关的知识,希望对你有一定的参考价值。
自己写了一个爬虫在爬取网页上动态加载的信息的时候不知道该怎么办。
我只是爬取几个特定网站的动态内容,比如搜狐新闻的评论
http://pinglun.sohu.com/s388990524.html
在网页的源文件中也没有看到有用的内容
在网上大概浏览了一下,说的都很笼统和模糊
求助各位大神,希望能以我给的那个链接为例子,详细地描述一下怎么去拿到它的评论。
Java_爬虫,如何抓取Js动态生成数据的页面?
很多网站是用js或Jquery 生成数据的,到后台获取到数据以后,用 document.write()或者("#id").html="" 的方式 写到页面中,这个时候用浏览器查看源码是看不到数据的。
HttpClient是不行的,看网上说HtmlUnit,说 可以获取后台js加载完后的完整页面,但是我按照文章上说的 写了 ,都不好使。
求解答,其中典型的就是这个链接的页面,怎么能在java程序中获取其中的数据?
http://xinjinqiao.tprtc.com/admin/main/flrpro.do
怎么不行,都是请求,搞清楚地址,就有参数,都是一次访问,能抓到肯定行追问
HttpClient得到的是没有数据的页面,数据是js加载的
以上是关于自己写了一个爬虫,求教如何在网页上爬取动态加载的信息。的主要内容,如果未能解决你的问题,请参考以下文章