Node批量爬取头条视频并保存方法

Posted 2021-01-15 voleta

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Node批量爬取头条视频并保存方法相关的知识，希望对你有一定的参考价值。

简介

一般批量爬取视频或者图片的套路是，使用爬虫获得文件链接集合，然后通过 writeFile 等方法逐个保存文件。然而，头条的视频，在需要爬取的 html 文件（服务端渲染输出）中，无法捕捉视频链接。视频链接是页面在客户端渲染时，通过某些 js 文件内的算法或者解密方法，根据视频的已知 key 或者 hash 值，动态计算出来并添加到 video 标签的。这也是网站的一种反爬措施。

我们在浏览这些页面时，通过审核元素，可以看到计算后的文件地址。然而在批量下载时，逐个手动的获取视频链接显然不可取。开心的是，puppeteer 提供了模拟访问 Chrome 的功能，使我们可以爬取经过浏览器渲染出来的最终页面。

项目启动

命令

1 2	`npm i` `npm start`

Notice: 安装 puppeteer 的过程稍慢，耐心等待。

配置文件

// 配置相关
module.exports = {
 originPath: ‘https://www.ixigua.com‘, // 页面请求地址
 savePath: ‘D:/videoZZ‘ // 存放路径
}

技术点

puppeteer

官方API

puppeteer 提供一个高级 API 来控制 Chrome 或者 Chromium。

puppeteer 主要作用：

利用网页生成 PDF、图片

爬取SPA应用，并生成预渲染内容（即“SSR” 服务端渲染）

可以从网站抓取内容

自动化表单提交、UI测试、键盘输入等

使用到的 API：

puppeteer.launch() 启动浏览器实例

browser.newPage() 创建一个新页面

page.goto() 进入指定网页

page.screenshot() 截图

page.waitFor() 页面等待，可以是时间、某个元素、某个函数

page.$eval() 获取一个指定元素，相当于 document.querySelector

page.$$eval() 获取某类元素，相当于 document.querySelectorAll

page.$(‘#id .className‘) 获取文档中的某个元素，操作类似jQuery

代码示例

const puppeteer = require(‘puppeteer‘);
  
(async () => {
 const browser = await puppeteer.launch();
 const page = await browser.newPage();
 await page.goto(‘https://example.com‘);
 await page.screenshot({path: ‘example.png‘});
  
 await browser.close();
})();

视频文件下载方法

下载视频主方法

const downloadVideo = async video => {
 // 判断视频文件是否已经下载
 if (!fs.existsSync(`${config.savePath}/${video.title}.mp4`)) {
 await getVideoData(video.src, ‘binary‘).then(fileData => {
  console.log(‘下载视频中：‘, video.title)
  savefileToPath(video.title, fileData).then(res =>
  console.log(`${res}: ${video.title}`)
  )
 })
 } else {
 console.log(`视频文件已存在：${video.title}`)
 }
}

获取视频数据

getVideoData (url, encoding) {
 return new Promise((resolve, reject) => {
 let req = http.get(url, function (res) {
  let result = ‘‘
  encoding && res.setEncoding(encoding)
  res.on(‘data‘, function (d) {
  result += d
  })
  res.on(‘end‘, function () {
  resolve(result)
  })
  res.on(‘error‘, function (e) {
  reject(e)
  })
 })
 req.end()
 })
}

将视频数据保存到本地

savefileToPath (fileName, fileData) {
 let fileFullName = `${config.savePath}/${fileName}.mp4`
 return new Promise((resolve, reject) => {
 fs.writeFile(fileFullName, fileData, ‘binary‘, function (err) {
  if (err) {
  console.log(‘savefileToPath error:‘, err)
  }
  resolve(‘已下载‘)
 })
 })
}

金盾2016-2017逆向分析系列教程下载地址：百度网盘下载
2017AI人工智能时代基础实战python机器学习深度学习算法全套视频教程下载地址：百度网盘下载
2016年练数成金最新python数据分析15周视频教程附源码/案例下载地址：百度网盘下载
实战Python Django开发博客系统下载地址：百度网盘下载
2018Python Flask打造一个视频网站实战视频教程下载地址：百度网盘下载
Python.Django 13集视频教程教学视频下载地址：百度网盘下载
2017AI人工智能基础实战python机器深度学习算法视频教程下载地址：百度网盘下载
Python网络爬虫Scrapy+MongoDB +Redis实战爬取腾讯视频动态评论教学视频下载地址：百度网盘下载
2018某课网Java秒杀高性能高并发实战视频教程下载地址：百度网盘下载
首套 Spring、SpringMVC、JPA、SpringData 整合案例视频下载地址：百度网盘下载
价值上万基于SOA 思想下的WebService多层架构实战用户管理系统下载地址：百度网盘下载
2017最新达内JAVA培训视频教程33G 下载地址：百度网盘下载
某课网高价Java大数据教程 Storm打造实时热力分步综合项目实战视频教程 Storm视频教程下载地址：百度网盘下载
黑马程序员Java视频教程大全压缩之后22G 带全套学习资料下载地址：百度网盘下载
Redis 教程+redis微博设计处理（内涵笔记和源码）下载地址：百度网盘下载
传智播客35期JAVA 基础+就业 (含税务系统项目) 下载地址：百度网盘下载
Git零基础到深入学习视频教程 Git极速入门课程极客学院14集Git基础学习视频教程下载地址：百度网盘下载
基于Laravel+VueJS实战开发WebAPP 下载地址：百度网盘下载
 php微信接口开发实战项目聊天机器人+微信支付下载地址：百度网盘下载
php 项目开发实录全场记录下载地址：百度网盘下载

以上是关于Node批量爬取头条视频并保存方法的主要内容，如果未能解决你的问题，请参考以下文章

今日头条图片ajax异步加载爬取，并保存至mongodb，以及代码写法的改进

爬取今日头条历史图集将信息保存到MongDB，并且下载图片到本地

递归爬取今日头条指定用户一个月内发表的所有文章，视频，微头条

分析Ajax爬取今日头条街拍美图

芝麻HTTP：分析Ajax爬取今日头条街拍美图

一段完整的批量下载网站视频资源的python爬虫代码（附注解）