python写爬虫怎么处理动态加载的网页，就是边拉动滚动条边加载的那种

Posted 2023-03-23

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python写爬虫怎么处理动态加载的网页，就是边拉动滚动条边加载的那种相关的知识，希望对你有一定的参考价值。

普通方法只可以获得原始加载的部分，想全部获得数据可以用什么框架或者什么技术解决？有讲解的资料可以推荐就更好了，谢谢

这个用phantomjs或者selenium都可以，这两个工具能模拟浏览器操作，就像你在操作浏览器一样，具体资料，百度之。参考技术A send_keys(Keys.DOWN) / send_keys(Keys.UP) 用键盘的上下键来模拟控制。
也可以用scrollTop=0 、，scrollTop=10000来实现

python爬取MM图片

参考技术A 其实我之前写过一篇爬取MM图片的文章，但是碍于尺度的问题，文章改了又改才过审，但是作为一个爬虫，怎么能没有爬取图片的案例呢，所以我又发现了一个不错的网站，里面的MM也不错，而且尺度也正常，话不多说，开爬！！

从图可以看出每一张图片对应一个链接，每一个链接里面就是该图片这个模特的所有图片，打开开发者工具来具体分析一下，可以分析出这个网页的图片加载都是动态加载的，你滚轮滑动向下，图片一直会加载，但是网站没有改变，如图：

既然知道了是动态加载的网页，那我们就直接定位到XHR选项，定位到包含有图片数据的网页：

可以看出，这个包含图片的网址就是json数据里面的对应的url选项里面的网址。每一个模特的系列图片就包含在这个网址里面，我们只需要请求这个网址，得到请求数据后，就可以提取出图片的真实链接地址了。

以上是关于python写爬虫怎么处理动态加载的网页，就是边拉动滚动条边加载的那种的主要内容，如果未能解决你的问题，请参考以下文章

python爬虫怎么获取动态的网页源码

python爬取MM图片

怎么用python爬虫爬取可以加载更多的网页

如何用python爬取js动态生成内容的页面

Python爬虫-05：Ajax加载的动态页面内容

python爬虫怎么爬取webpack打包过页面的