puppeteer + nodejs 抓取网页内容
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了puppeteer + nodejs 抓取网页内容相关的知识,希望对你有一定的参考价值。
参考技术A 网址: http://nodejs.cn/download/
注:我使用的是二进制包 64位。解压后可直接使用
Puppeteer是什么
Puppeteer 是一个Node库, 它提供高级API,通过DevTools Protocol 来控制Chrome 或 Chromium。 Puppeteer 默认运行为headless ,但是可以配置为运行为non-headless 。
可以做什么
生成页面截图或PDF
抓取SPA 并生成预渲染内容(SSR)
1、在windows环境下安装,在命令提示符中,输入命令:npm i --save puppeteer --ignore-scripts,即可安装成功。
执行命令:在cmd中执行 : nodejs路径 puppeteer路径 chrome浏览器路径 http://www.baidu.com
以上是关于puppeteer + nodejs 抓取网页内容的主要内容,如果未能解决你的问题,请参考以下文章
如何使用 NodeJS 和 puppeteer 从 udemy 抓取图像
Puppeteer + Nodejs 通用全屏网页截图方案常用参数实现