如何在网站页面完全加载时抓取它(js,css all loaded)
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何在网站页面完全加载时抓取它(js,css all loaded)相关的知识,希望对你有一定的参考价值。
我想抓取一些网站页面,如亚马逊或eBay,以获得已售出的项目图片路径。当我检查页面时,似乎当页面完全加载时,图像src被javascript修改。
有一个名为cheerio
的图书馆。它很简单,但它没有公开一个方法在页面完全加载后进行一些检查,它只返回html。有没有人有这方面的经验?或者是否有任何库可用于获取真实的图像路径,因为它是由javascript修改的?谢谢你的帮助。
答案
正如评论中提到的,puppeteer可能是刮掉动态页面的最佳方式。它是一个与chrome / chromium接口的节点库,它将像常规chrome的实例一样加载页面。
在你的page.evaluate
中,你可以使用MutationObserver浏览器api来观看DOM并等待你想要的图像。
我有很好的使用Apify的经验,它将为你运行木偶操作实例,并有一个慷慨的免费等级。
以上是关于如何在网站页面完全加载时抓取它(js,css all loaded)的主要内容,如果未能解决你的问题,请参考以下文章
Android WebView资源文件,如js和css文件缓存
使用 php,JS 强制浏览器在页面加载时使用最新的 JS 和 CSS 文件