爬虫应用示例--puppeteer数据抓取的实现方法(续2)
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫应用示例--puppeteer数据抓取的实现方法(续2)相关的知识,希望对你有一定的参考价值。
参考技术A 本文是“ 爬虫应用示例--puppeteer数据抓取的实现方法(续1) ”的后续,主要讲解了常用的几个自动化操作实现方法。以上语句实际上是创建一个浏览器的实例,一般配置以上4个参数足够了,具体如果还需要指定更多的创建方式,可以参见 这里 。
如果希望异步操作,则可以去掉await。
创建浏览器实例实际上是一个promise,成功后才可以执行自动打开指定网页等以下命令。
以上是根据id定位输入框的,也可以用坐标、classname等更多方法定位。
这个命令await page.$eval("#btnNext",obj => obj.href);可以获取超级链接的href值。
puppeteer功能非常强大,以此为基础实现一个RPA,可以满足大部分的自动化要求。
puppeteer + nodejs 抓取网页内容
参考技术A 网址: http://nodejs.cn/download/
注:我使用的是二进制包 64位。解压后可直接使用
Puppeteer是什么
Puppeteer 是一个Node库, 它提供高级API,通过DevTools Protocol 来控制Chrome 或 Chromium。 Puppeteer 默认运行为headless ,但是可以配置为运行为non-headless 。
可以做什么
生成页面截图或PDF
抓取SPA 并生成预渲染内容(SSR)
1、在windows环境下安装,在命令提示符中,输入命令:npm i --save puppeteer --ignore-scripts,即可安装成功。
执行命令:在cmd中执行 : nodejs路径 puppeteer路径 chrome浏览器路径 http://www.baidu.com
以上是关于爬虫应用示例--puppeteer数据抓取的实现方法(续2)的主要内容,如果未能解决你的问题,请参考以下文章