python写爬虫怎么处理动态加载的网页,就是边拉动滚动条边加载的那种
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python写爬虫怎么处理动态加载的网页,就是边拉动滚动条边加载的那种相关的知识,希望对你有一定的参考价值。
普通方法只可以获得原始加载的部分,想全部获得数据可以用什么框架或者什么技术解决?有讲解的资料可以推荐就更好了,谢谢
这个用phantomjs或者selenium都可以,这两个工具能模拟浏览器操作,就像你在操作浏览器一样,具体资料,百度之。 参考技术A send_keys(Keys.DOWN) / send_keys(Keys.UP) 用键盘的上下键来模拟控制。也可以用scrollTop=0 、,scrollTop=10000来实现
python爬取MM图片
参考技术A 其实我之前写过一篇爬取MM图片的文章,但是碍于尺度的问题,文章改了又改才过审,但是作为一个爬虫,怎么能没有爬取图片的案例呢,所以我又发现了一个不错的网站,里面的MM也不错,而且尺度也正常,话不多说,开爬!!从图可以看出每一张图片对应一个链接,每一个链接里面就是该图片这个模特的所有图片,打开开发者工具来具体分析一下,可以分析出这个网页的图片加载都是动态加载的,你滚轮滑动向下,图片一直会加载,但是网站没有改变,如图:
既然知道了是动态加载的网页,那我们就直接定位到XHR选项,定位到包含有图片数据的网页:
可以看出,这个包含图片的网址就是json数据里面的对应的url选项里面的网址。每一个模特的系列图片就包含在这个网址里面,我们只需要请求这个网址,得到请求数据后,就可以提取出图片的真实链接地址了。
以上是关于python写爬虫怎么处理动态加载的网页,就是边拉动滚动条边加载的那种的主要内容,如果未能解决你的问题,请参考以下文章