如何在网站页面完全加载时抓取它(js,css all loaded)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何在网站页面完全加载时抓取它(js,css all loaded)相关的知识,希望对你有一定的参考价值。

我想抓取一些网站页面,如亚马逊或eBay,以获得已售出的项目图片路径。当我检查页面时,似乎当页面完全加载时,图像src被javascript修改。

有一个名为cheerio的图书馆。它很简单,但它没有公开一个方法在页面完全加载后进行一些检查,它只返回html。有没有人有这方面的经验?或者是否有任何库可用于获取真实的图像路径,因为它是由javascript修改的?谢谢你的帮助。

答案

正如评论中提到的,puppeteer可能是刮掉动态页面的最佳方式。它是一个与chrome / chromium接口的节点库,它将像常规chrome的实例一样加载页面。

在你的page.evaluate中,你可以使用MutationObserver浏览器api来观看DOM并等待你想要的图像。

我有很好的使用Apify的经验,它将为你运行木偶操作实例,并有一个慷慨的免费等级。

以上是关于如何在网站页面完全加载时抓取它(js,css all loaded)的主要内容,如果未能解决你的问题,请参考以下文章

CSS 完全破坏了 Wordpress 页面线网站?

Android WebView资源文件,如js和css文件缓存

使用 php,JS 强制浏览器在页面加载时使用最新的 JS 和 CSS 文件

如何让Googlebot抓取从AJAX加载的内容,但阻止它对网址命中的索引?

jsoup抓取页面源码的问题、源码被隐藏、

当我在我的网站上上传页面时......它没有完全加载......它被加载到补丁中