用puppeteer爬取网页数据初体验
Posted lijianming180
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用puppeteer爬取网页数据初体验相关的知识,希望对你有一定的参考价值。
用puppeteer
爬取网页数据
业务需求,页面需要显示很多链接列表,像这样的。
我问项目经理要字典表,他笑咪咪地拍着我的肩膀说:“这边有点忙,要不按照这个自己抄一下吧”。
emmm…
我看了一下,数据大概有七八百条,一个一个录入,那不得搞到地老天荒、海枯石烂。
心口一股燥热,差点就要口吐莲花,舌吐芬芳了…
转念一想,做人要儒雅随和,念在平时没少蹭吃蹭喝的份上,咱先弄一下吧。
可是怎么弄呢?
一个一个输入是不可能的,我们需要录入每个组的标题、标题下的名称和链接,这是需要看网页源码,效率太低。
拦截接口也不行,网页是 php 写的,后端渲染,前端看不到接口。
那就只有一种方法,爬取网页数据。想到之前了解过的pupeteer
nodejs 库可以爬取网页数据,要不咱先试一下?
说干就干。
准备工作
安装依赖,puppeteer 下载完成后会自动下载 me
1 | npm install puppeteer |
代码实现
1 | const puppeteer = require("puppeteer"); |
爬取结果
大功告成.
源码地址
https://github.com/superman12312/learning/tree/master/NODEJS/puppeteer-demo
以上是关于用puppeteer爬取网页数据初体验的主要内容,如果未能解决你的问题,请参考以下文章
Python3爬虫爬取美女图新姿势--Redis分布式爬虫初体验