puppeteer + nodejs 抓取网页内容

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了puppeteer + nodejs 抓取网页内容相关的知识,希望对你有一定的参考价值。

参考技术A

  网址: http://nodejs.cn/download/
  注:我使用的是二进制包 64位。解压后可直接使用

   Puppeteer是什么
  Puppeteer 是一个Node库, 它提供高级API,通过DevTools Protocol 来控制Chrome 或 Chromium。 Puppeteer 默认运行为headless ,但是可以配置为运行为non-headless 。
   可以做什么
  生成页面截图或PDF
  抓取SPA 并生成预渲染内容(SSR)

   1、在windows环境下安装,在命令提示符中,输入命令:npm i --save puppeteer --ignore-scripts,即可安装成功。

执行命令:在cmd中执行 : nodejs路径 puppeteer路径 chrome浏览器路径 http://www.baidu.com

以上是关于puppeteer + nodejs 抓取网页内容的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 NodeJS 和 puppeteer 从 udemy 抓取图像

Nodejs中puppeteer抓取浏览器HAR数据

Puppeteer + Nodejs 通用全屏网页截图方案常用参数实现

Puppeteer + Nodejs 通用全屏网页截图方案基本功能

Puppeteer无法抓取动态生成的内容

Puppeteer,保存网页和图像