音视频技术开发周刊 | 253

Posted 2022-07-13 LiveVideoStack_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了音视频技术开发周刊 | 253相关的知识，希望对你有一定的参考价值。

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

活动剧透

海内外技术人们“看”音视频技术的未来
COVID-19的爆发，在一定程度上催化了音视频技术的加速发展。这种加速发展不止是技术的纵向迭代，也是向不同场景发起了一次横向触达。人们的很多活动在线下受限，但可以通过线上来进行，甚至越来越依赖这种方式，这肯定少不了技术者们在背后的支持。我们做了一个回顾，无论是国内还是国外，看看技术人们在音视频技术这个垂直赛道上更看好哪些具体技术的发展吧。另外，在这些内容的基础上，我们延伸到了本次 8月5日开始的LiveVideoStackCon 2022 音视频技术大会上海站，一起看看有哪些大佬和内容会出现吧。

跨平台播放器开发 (三) QT for Windows & FFmpeg 环境搭建
上一篇咱们在「Linux」平台下搭建了播放器开发环境，该篇主要介绍如何在「Windows」平台下搭建 QT 和 FFmpeg 开发环境。

音视频开发之旅（16） OpenGL ES粒子效果-烟花爆炸
在具体实践之前，先来想一想，烟花爆炸的场景和属性，从中心点开始爆炸，然后烟花粒子向各个方向炸开，整体形状也各有不同，比如北京奥运会的大脚印，今天我们也实现一个圆形的烟花爆炸效果。

关于提升VideoEditor导出视频速度的一些建议
视频的导出速度算是VideoEditor的一个非常重要的衡量指标，如何导出速度太慢了，那么VideoEditor肯定是流失相当一部分用户的。本文关于视频导出速度的优化都是经过实践证明过的，非常具有参考意义。

基于运动补偿的时域滤波
本文将以VTM为主，对MCTF（基于运动补偿的时域滤波）技术进行介绍。该技术用于对视频进行前处理，在VTM和HM的新版本中均有使用。

如何打造支撑多种视频播放诉求的大前端播放器？
在内容和交易日渐融合的趋势下，在淘宝从交易走向消费的进程中，视频已经是无处不在，视频播放的业务场景是非常复杂的，这篇文章谈谈我对播放器领域问题的认识，以及当下解决这些问题的思路。

31年前的Beyond演唱会，是如何超清修复的？
1991年，Beyond乐队在红馆举办了“生命接触”演唱会，然而，当初留下的影像却存在模糊、褪色等多种瑕疵。7月3日晚，超清修复版Beyond演唱会精选在各大平台同步直播，超1.4亿人次收看。接下来，就带大家了解这次超清修复背后的技术亮点。

PixelAI移动端实时人像分割优酷端侧弹幕穿人技术实战系列
随着各大视频平台相继推出弹幕穿人功能，广受好评。针对优酷弹幕穿人业务，设计了实时性和精度都较高的移动端人像分割模型，加上淘系PixelAI SDK的加持，将人像分割技术上线到优酷移动端弹幕穿人业务。本文将从算法和工程两个方面，详细阐述解决方案。

基于语义信息和内容相似的加密视频搜索
提出加密视频搜索的框架，利用视频独有的语义和内容相似性进行加密搜索，在搜索时间和搜索准确率上都达到了较好的效果，同时基于两次 SSE 的搜索也保证了搜索的安全性。

MP3是如何诞生的？
MP3是一种音频压缩技术，在上世纪90年代，能将几百首歌曲装进一个火柴盒大小的设备中，随身携带并随时随地听歌，简直就像奇迹一样。三十年过去了，让我们一起来回顾一下看看MP3到底是怎么诞生的吧。

苹果超声波触摸传感器新专利
近日，美国专利和商标局公布了苹果关于先进的超声波触摸传感器的专利申请。据Patently Apple报道，该超声波技术专利将适用于AirPods Pro和AirPods Max。

干货：Android 音视频开发学习路线图
作为一个音视频零基础的人来说, 开发一款短视频 SDK 到底需要具备哪些知识呢? 下面就由我为大家介绍一翻(ps:以下学习路径仅代表个人观点)。

使用WebRTC作为RTMP的替代方案
WebRTC会是替代RTMP的最佳方案吗？在开发者中，这句话已经成为了流行语。正如我将在下文所解释的那样，它取决于你所使用的支持部署的技术和你想达成的目标。

对话PPIO联合创始人王闻宇：整合边缘算力资源，开拓更多音视频服务场景
LiveVideoStack有幸在LiveVideoStackCon 2022 上海站大会之前采访王闻宇，一同探讨了如何看待当前边缘计算技术与市场的发展，并分享了PPIO边缘云目前所提供的服务、在音视频行业所关注的重点以及未来的规划等。

基于 http-flv 的抖音直播端到端延迟优化实践
从直播链路各环节延迟贡献看，容易得出一个直观的结论：端到端延迟过大主要是播放器的防抖 buffer 造成，这个表面现象也经常会导致很多同学，认为降低播放器的 buffer，就能降低延迟。这个说法的对错，取决于从什么角度解释。

一文详解车载以太网通信开发及应用
随着汽车功能的不断增加，尤其是音视频流、OTA、大数据收集功能，对车载通信技术的高带宽和实时性要求越来越高。本文讨论车载以太网技术特点，以太网的分层模型及各层的协议内容，为车载以太网通信技术的开发和应用提供了参考依据。

超低延迟、稳定、可扩展的自由视视频传输
文中分析自由视视频对传输性能的需求，限定编码参数和数据封装格式，降低传输延迟；设计服务端编码控制策略和客户端缓存播放控制策略，提升传输稳定性；探索数据组织优化和多种通信技术协同，实现资源受限条件下服务规模的提升。

码率控制基础
本次将介绍视频编码中的码率控制技术。码率控制技术是实际视频编码器中一个非常重要的技术模块，用于保证码率的顺利传输和信道带宽的充分利用，并且在满足各项带宽要求的前提下同时尽可能优化编码性能。

说说 FFmpeg 和 H.264 视频编解码的那些事
做CV的人经常面对的东西之一就是用FFmpeg处理视频，本文聚焦的就是FFmpeg和H.264视频编码的一些概念和命令。

Android AVDemo（11）：视频转封装，从 MP4 到 MP4丨音视频工程示例
在音视频工程示例这个栏目，我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是 Android 第十一篇：Android 视频转封装 Demo。

AVS3成为DVB下一代超高清视频编码标准！
7月8日，数字视频广播组织（DVB）指导委员会会议正式批准源自中国的视频编解码标准AVS3成为DVB标准体系中下一代视频编解码标准之一，旨在推动超高清视频产业应用和发展。

图像信号处理芯片设计原理——14 超分辨率技术
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究，以典型的相机成像系统为基础，涉及的内容包括各类缺陷校正，去马赛克，去噪，3A算法，超分，HDR，风格迁移等主题。本文介绍一种可以将低分辨率图像恢复成高分辨率图像的技术，超分辨率技术。

常见的图像分割方法
常用的并行区域技术，它是图像分割中应用数量最多的一类。阈值分割算法的关键是确定阈值，如果能确定一个适合的阈值就可准确地将图像分割开来。

CVPR2022 | 医学图像分析中基于频率注入的后门攻击
在本文中我们提出了一个基于频域信息注入的后门攻击方法。具体来说，我们设计了一个频域触发器，通过线性组合两幅图像的振幅谱图，将触发器图像的低频信息注入有毒图像。

Android 动画的一切，全面掌握！
学习Android必不可少的就是动画的使用了，在Android版本迭代的过程中，出现了很多动画框架，这里做一个总结。

电商商品同款识别图像算法研究
为了能够让⽤户实时发现最新低价，同款识别成为了破局的关键，并且只有完全相同的商品（SKU维度相同）才有⽐价的意义。淘宝官⽅⽐价平台“有好价”产品主打的就是实时更新全⽹最低价的好物，能在第⼀时间给⽤户展示低价的同款商品。

FFmpeg硬件加速
本系列主要分析各种 FFmpeg 命令在代码里是如何实现的，本文以 FFmpeg4.4.1 源码为准，用以下命令分析 FFmpeg.c 里面的硬件加速逻辑实现。

https://juejin.cn/post/7087395933923016735

斑马识别成狗！AI犯错的原因被斯坦福找到了！丨开源
明明是只斑马，AI为什么说它是一条狗？分类模型在归类图像时有时会错误地判断类别。经过学习的AI，还会搞砸一些预测，肯定是在其中的某个环节出现了纰漏。斯坦福大学的两位博士生和教授James Zou在一篇论文中，带我们探究了分类模型犯错的原因。

大尺寸图像识别框架YOLT — 基于YOLO的遥感影像识别解决方案！
本文分享一个基于YOLO v2 改进的卫星图像目标检测框架 — YOLT，针对许多朋友在近期亚马逊云科技【AI For Good - 2022】挑战赛中遇到的大尺寸卫星图像识别困难的问题提供一个不错的思路。目前 YOLT 框架已更新至v4，并在 GitHub 上进行开源。

手把手实现一个深度学习框架（附代码实现）
本文首先会从深度学习的流程开始分析，对神经网络中的关键组件抽象，确定基本框架；然后再对框架里各个组件进行代码实现；最后基于这个框架实现了一个 MNIST 分类的示例，并与 Tensorflow 做了简单的对比验证。

轻松学Pytorch-使用ResNet50实现图像分类
这篇文章给大家详细介绍一下pytorch中最重要的组件torchvision，它包含了常见的数据集、模型架构与预训练模型权重文件、常见图像变换、计算机视觉任务训练。本文将会介绍如何使用torchvison的预训练模型ResNet50实现图像分类。

深度学习小目标检测常用方法
本文详细地总结了多种在通用目标检测和专门人脸检测领域常见的小目标检测的解决方案，并附相关论文链接，希望对大家研究目标检测有帮助。

彻底搞懂机器学习中的正则化
个人认为正则化这个字眼有点太过抽象和宽泛，其实正则化的本质很简单，就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。在算法中使用正则化的目的是防止模型出现过拟合。

ICRA 2022杰出论文：把自动驾驶2D图像转成鸟瞰图，模型识别准确率立增15%
来自萨里大学的研究者引入了注意力机制，将自动驾驶的 2D 图像转换为鸟瞰图，使得模型的识别准确率提升了 15%，并斩获了 ICRA 2022 的杰出论文奖。

用于自动驾驶的混合稀疏-稠密单目SLAM系统
随着自动驾驶系统的推广，越来越多的应用要求SLAM具备高动态定位以及稠密建图能力。在论文"A Hybrid Sparse-Dense Monocular SLAM System for Autonomous Driving"中，作者提出了一种混合稀疏特征和稠密建图的SLAM系统，并利用UnRectDepthNet来进行单目相机的深度估计。重要的是，算法已经开源。

经典论文 | 300FPS，超快结构感知的深度车道检测
车道检测是计算机视觉研究的一个基础问题，在ADAS和自动驾驶等领域有着广泛的应用。对于车道检测，主流的方法有两种，即传统的图像处理方法和深度分割方法。车道检测算法作为自动驾驶的基本组成部分，被大量执行。

ADAS/AD前视感知测评
前视感知系统是用来探测自车前向目标，它能够对前向特定目标进行准确的识别、位置估计、3d追踪等功能，其输出的结果，会用于后续的融合、决策等算法模块。那么前视感知系统在一个ADAS/AD系统中占据什么地位呢？简单来说，就是汽车看得远的眼睛。

5G无线通信网络及其在智能汽车中的应用(一)：5G与V2X的原理和过程演进
汽车行业正在向联网和自动驾驶汽车发展，这些汽车可以提供许多好处，例如提高安全性、减少交通拥堵、减少环境影响和降低资本支出。这种演变的一个关键推动因素是车联网 (V2X) 通信，它允许车辆与其他车辆、行人、路边设备和互联网进行通信。

‍FaceX-Zoo | 使用PyTorch Toolbox进行人脸识别（附源代码）
FaceX-Zoo是面向人脸识别的研究-开发社区。恢复高度模块化和可伸缩的设计，FaceX-Zoo提供了一个训练模块与各种监督头和主干的最先进人脸识别，以及一个在大多数流行的基准通过编辑一个简单的配置来实现标准化的测试模块。

从1小时到3.5分钟，Meta新算法一部手机搞定3D人脸数据采集，可用于VR的那种
仅凭这3.5分钟的数据，就足以生成高保真、可驱动的真实3D人脸头像。这项研究来自Meta Reality Labs——就是扎克伯格元宇宙计划里的那个核心部门。论文已经被SIGGRAPH 2022接收。作者提到，这一方法适用于VR应用。

使用 Python 进行人脸识别（第1部分）
在这文章中，将详细解释我是如何使用机器学习（ML）算法制作人脸识别锁系统的。

使用 Python 进行人脸识别（第2部分）
我们继续用 Python 编写人脸识别程序，在本节中，我们现在将进入代码部分。

https://news.cnstock.com/news,bwkx-202207-4916354.htm

活动推荐

LiveVideoStackCon 2022 北京站讲师招募开始啦！

11月4-5日，LiveVideoStackCon 2022 北京站将与大家继续探索音视频技术在不同场景下的融合与发展，在这里不仅可以与业内大佬们进行技术上的心得交流，还可以感受到多媒体生态内的头部公司、顶级玩家对行业当前发展趋势、瓶颈挑战，与对未来规划的深入解读。LiveVideoStackCon是每个人的舞台，如果你在团队、公司中独当一面，在某一领域或技术拥有多年实践，并热衷于技术交流，欢迎申请成为LiveVideoStackCon的讲师。

点击「阅读原文」，即可在网页下方报名，还可查看讲师权益与申请条件。

或提交演讲内容+个人介绍至邮箱：speaker@livevideostack.com

我们将尽快审核并通知您最终结果。

以上是关于音视频技术开发周刊 | 253的主要内容，如果未能解决你的问题，请参考以下文章

奇舞周刊第 253 期：如何正确的学习 Node.js