某音视频转为图文的一次技术尝试

Posted 2023-04-05 S-arige

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了某音视频转为图文的一次技术尝试相关的知识，希望对你有一定的参考价值。

背景：

作为一个深度抖音用户，对时不时出现的一些宝藏视频总是回味无穷，特别是一些与政史财经相关的视频，总是能给人一些新的角度和思考。视频虽好但是有三个明显的缺点

信息的冗余度很高，我们可能花几秒钟就能看完的内容，要照顾到用户爽感，被迫观看长时间视频
搜索不友好，标题搜索还好一些，但是内容搜索就有点难搞了
由于各种原因可能在某一天就找不到了

基于以上考虑，决定自己搞一个将优秀视频转为图文，本地存储的方案。

目标：

既然是要做，我们就要列清楚我们要达到的几个目标

要减少人工操作，人工筛选出来合适的视频就行了。其他的尽量不要再有人工参与
尽量减少费用，给你自己干活，要多快好省地搞

整体架构设计：

用户从视频池中选取感兴趣的视频后，通过用户接口进入我们的处理系统，在系统内容先对用户的数据进行清洗、整理，对应的视频的下载、处理，以及相关的音频、图片文本的处理，然后最终生成maakdown文件

整体流程设计：

如上图，对整个流程进行了梳理。

链接发送到系统中，考虑到便捷性和成本，最终采用企业微信的方案来实现该部分能力。
系统收到企业微信的消息后，对消息进行解析，如果成功会包含三个内容标题、标签、视频地址
将2中的标题和标签写入md文件，并将标题和视频地址绑定，方便后续处理
下载视频
将视频拆出来音频和图片
将音频给腾讯云转文本（当前每个月有10小时免费额度）
转好的文档追加到3的md文件中（也可以按照音频的时间将5中生成的图片插入）

使用到的技术点和三方：

现在已经完成了整个流程剩余的就是技术实现了整体来看，使用了几项技术点

企业微信（方便用户数据入系统）
腾讯云的音频转文本
爬虫技术（下载视频）
frp（为了做调试）

总结：

整体来说，实现难度不大。企业微信的文档真是让人头秃。

题外话：

公众号：arigeweixin

服务端需要的业务基本都是在腾讯云完成了，推广一下腾讯云吧。需要的可以点击购买【腾讯云】热门云产品首单特惠秒杀，2核2G云服务器45元/年 https://cloud.tencent.com/act/cps/redirect?redirect=1077&cps_key=84eba0f7f988b07a99e0b068e6a5277f&from=console

数字图像处理Tencent视频团队讲座记录

　　想了一下前些天，T家视频的团队开了一次讲座，然后我就屁颠屁颠地去看了一下。虽然知道远古时期的视频编码混乱割据的时代已经远去，但是现在的挑战反而日新月异。现在T家发展得这么大，T的视频业务做得也很大，所以尝试了一些新的技术，当然deep learning啦，分布式，云计算，计算机视觉什么的都是可以有的。真的感叹拥有大批数据的公司真是想干啥就干啥。

　　从讲技术的一位技术人员那里光明正大地偷记下他们的技术栈，大概过了半个小时吧。

　　可以列出如下的几点：

　　1. MD5 编码

　　2. 视频编码技术 ffmpeg x264 mp4box

　　3. 计算机视觉库 opencv vlfeat dlib

　　4. 深度学习相关 caffe tensorflow

　　5. 系统架构相关 curl mysql php

====待填坑 ====================

以上是关于某音视频转为图文的一次技术尝试的主要内容，如果未能解决你的问题，请参考以下文章

ffmpeg中怎么编程实现获取视频中某指定的一帧

无法使用任何技术播放任何视频：android

全方位支持图文和音视频100+增强功能，Facebook开源一个新的 Python 库AugLy

怎么把vivo手机缓存的视频转为本地视频

2018最新区块链技术，从入门到精通视频教程（比特币基础技术）

全套网站前端开发视频教程（含视频+实例+作业）