爬虫应用示例--puppeteer数据抓取的实现方法(续2)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫应用示例--puppeteer数据抓取的实现方法(续2)相关的知识,希望对你有一定的参考价值。

参考技术A 本文是“ 爬虫应用示例--puppeteer数据抓取的实现方法(续1) ”的后续,主要讲解了常用的几个自动化操作实现方法。

以上语句实际上是创建一个浏览器的实例,一般配置以上4个参数足够了,具体如果还需要指定更多的创建方式,可以参见 这里 。

如果希望异步操作,则可以去掉await。

创建浏览器实例实际上是一个promise,成功后才可以执行自动打开指定网页等以下命令。

以上是根据id定位输入框的,也可以用坐标、classname等更多方法定位。

这个命令await page.$eval("#btnNext",obj => obj.href);可以获取超级链接的href值。

puppeteer功能非常强大,以此为基础实现一个RPA,可以满足大部分的自动化要求。

puppeteer + nodejs 抓取网页内容

参考技术A

  网址: http://nodejs.cn/download/
  注:我使用的是二进制包 64位。解压后可直接使用

   Puppeteer是什么
  Puppeteer 是一个Node库, 它提供高级API,通过DevTools Protocol 来控制Chrome 或 Chromium。 Puppeteer 默认运行为headless ,但是可以配置为运行为non-headless 。
   可以做什么
  生成页面截图或PDF
  抓取SPA 并生成预渲染内容(SSR)

   1、在windows环境下安装,在命令提示符中,输入命令:npm i --save puppeteer --ignore-scripts,即可安装成功。

执行命令:在cmd中执行 : nodejs路径 puppeteer路径 chrome浏览器路径 http://www.baidu.com

以上是关于爬虫应用示例--puppeteer数据抓取的实现方法(续2)的主要内容,如果未能解决你的问题,请参考以下文章

以puppeteer抓取微指数,puppeteer基本示例,即docker部署

puppeteer + nodejs 抓取网页内容

使用Puppeteer进行数据抓取——简单的示例

使用Puppeteer进行数据抓取——图片下载

使用Chrome快速实现数据的抓取—— puppeteer

实例:使用puppeteer headless方式抓取JS网页