音视频技术开发周刊 | 222

Posted 2021-12-23 LiveVideoStack_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了音视频技术开发周刊 | 222相关的知识，希望对你有一定的参考价值。

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

直播、社交、在线教育等行业催生了实时音视频技术（RTC）的兴起和发展。反过来， RTC 的发展和应用也为这些行业带来了巨大的增长。随着 RTC 对应用场景的不断渗透，业务伙伴关于场景体验的要求也越来越高，比如更低延时、更加顺畅、更高画质。LiveVideoStackCon 2021 北京站，火山引擎视频云 RTC 产品负责人 Julian，为大家分享火山引擎视频云 RTC 是怎样在抖音、西瓜、头条等产品的场景实践中，不断地追求极致的。

智能视频内容生产中专业视频数据导出工具的研发
随着智能视频生产时代的到来，专业视频的制作将会变得更智能、更简单。智能视频生产中主要包含三大模块，他们分别是：视频SDK底层能力、AI能力以及海量视频预设导出能力。本次LiveVideoStackCon 2021北京站，杭州视杏科技有限公司CEO 李志强，向我们分享了如何研发智能视频预设工具来辅助设计师智能导出预设内容以及一些成功的案例。

探讨视频云与边缘云平台的竞争力 ——基于Serverless的端边云一体化媒体网络
视频在边缘的创新方向在哪？下一代视频云平台什么样？本次LiveVideoStackCon 2021 音视频技术大会北京站我们邀请到了华为云媒体服务RTC资深产品专家卢志航老师，从以Serverless为承载平台，以开放、专业的媒体处理能力为价值核心的方向，与大家探讨视频云与边缘云平台的下一代竞争力。

共享经济模式下的边缘计算——PPIO边缘云 laaS技术实践分享
边缘云计算，简称边缘云，是基于云计算的核心技术和边缘赋予的能力，构筑在边缘基础设施之上的云计算平台，为“万物互联”的应用场景提供低时延、自组织、可定义、可调度、高安全、标准开放的分布式云服务。而共享经济是一种优化资源配置、高效社会治理的新经济模式，是最新态势以及未来发展趋势。在此次LiveVideoStackCon 2021 音视频技术大会北京站，我们邀请到了PPIO边缘云 CEO&联合创始人王闻宇，由他来向我们讲述共享经济模式下的边缘计算。

H.265在QRTC场景的落地运用
近年来，伴随着采集渲染设备终端发展，人们对视频质量的需求也在日益“膨胀”，更高的分辨率：4k/8k，更宽泛的亮度，色度动态范围HDR/Dolby视界，更沉浸式感受：VR /AR 360全景体验等；这也给网络带宽/设备计算能力等带来了新的挑战，怎么在有限的容量下传输最有价值的视频信息始终是我们需要解决的核心问题；面向未来，七牛云作为领先的云服务厂商，全线产品支持更好的视频编解码成为必然选择。本次LiveVideoStack 2021 北京站邀请到七牛云视频编解码负责人—朱玲，重点分享七牛云将H.265落地运用到QRTC场景的一些创新经验和教训。

失真对编码性能的影响研究

本次演讲主题为不同失真对视频压缩性能的影响，近几年来视频流的技术环境发生了巨大的变化，互联网上的视频流量急剧增加。这也使得人们对视频流和实时视频通信应用中的视频压缩的比特率与质量之间的权衡产生更大的兴趣。而不同的失真类型对这一权衡的影响在此之前并没有被系统的评估过。主讲人介绍了一种方法来衡量视频压缩过程中各种失真（噪声、颗粒、闪烁、晃动）的影响。结果表明，噪声/颗粒对编解码器的性能影响最大，但目前的编解码器对这一类失真鲁棒性更强。此外，主讲人介绍了预处理模块对去噪的影响，指出在开发和测试中，将去噪作为视频压缩流水线的一部分能够更加有效的去噪。

MPEG VCM

传统是视频编码是针对人眼视觉进行优化的，目的是在保持人的主观失真不增加的情况下降低码率。而现在越来越多的视频需要进行机器分析，而人只需要看机器分析的结果。因此MPEG成立VCM（Video Coding for Machines）工作组探索新的标准，在不降低机器处理性能的情况下降低码率。这里的机器处理任务包含多种计算机视觉任务，包括目标检测、目标跟踪、实例分割、姿态估计等。

RealBasicVSR：BasicVSR再次升级，破局真实场景视频超分

真实场景视频数据的多样性、退化的复杂性为视频超分带来了极大的挑战。尽管时序上的长距离传播可以有效改善轻度的重建质量，但真实场景的重度退化则会伴随长距离传播损害重建质量。为平衡细节生成与伪影抑制，我们发现：预清洗(pre-cleaning)对于降低噪声与伪影不可或缺。武装上精心设计的预清洗模块后，所提RealBasicVSR在重建质量与效率方面超越了已有方案。

在ffmpeg中添加自定义滤镜

AVFilter的功能十分强大，可以实现对多媒体数据的各种处理，包括时间线编辑、视音频特效滤镜的添加或信号处理，还可以实现多路媒体流的合并或叠加，其丰富程度令人叹为观止。使用AVFilter可以为单路视频添加单个或多个滤镜，也可以为多路视频分别添加不同的滤镜并且在最后将多路视频合并为一路视频。

Android Camera 多路同采的探索实践

目前主流的 andriod 手机基本上都是配备了2个以上 Camera 设备。那么针对越来越多的 Camera 设备，对于开发者，该如何使用呢？本文主要对如何同时采集多路数据进行了探索实践。

AI版「女娲」来了！文字生成图像、视频，8类任务一个模型搞定

随着 VQ-VAE 这种离散化 VAE 方案的出现，高效和大规模的预训练被逐渐应用于视觉合成任务，例如 DALL-E（图像）、GODIVA（视频）。这些模型虽然取得了巨大的成功，但仍然存在一些局限性——它们分别处理图像和视频，专注于生成其中一种，这限制了模型从图像和视频数据中受益。相比之下，「女娲」是一个统一的多模态预训练模型，在 8 种包含图像和视频处理的下游视觉任务上具有出色的合成效果。

都是AR，增强现实比辅助现实更好？

随着数字化转型开始扩展到工业企业的方方面面，越来越多的企业和行业从业者开始关注AR技术在企业数字化过程中的应用。数字化转型已经加速扩张至更多企业的一线员工，在后疫情时代这个大背景下，受到了更多环境的催化。对于企业而言，找到适合团队工作环境的正确数字解决方案至关重要。技术究竟如何为我所用，也是每一个企业管理者所要思考的。

手机中的计算摄影4-超广角畸变校正

在本篇文章中，首先介绍了镜头畸变，以及它引起的直线弯曲现象。然后讲述了镜头畸变的两种原因——径向畸变和切向畸变，并给出了去除这两种畸变的完整过程。接着我介绍了透视投影的应用，以及它导致的边角拉伸现象。我还花了较大篇幅，介绍了三位宝岛才俊的去除透视畸变的论文。事实上，我们正是基于这篇论文的思想加以改进，实际开发了相关的产品，并已经部署到了很多客户手机中，当然我们已经完全采用了不同的方法。

一文概括常用图像处理算法以及常用开发库

本文总结了11种常用的图像处理算法，包含了预处理算法以及检测算法，并介绍了一些常用的开发库。

CSIG 3DV专委会 [成果速览] 2021年第28期——用于点云理解的自适应图卷积

相较于二维图像，点云上的卷积模型需要处理点云数据本身所具有的无序性和不规则性。在3D视觉领域，仍然缺乏成熟、有效的卷积操作对诸如点云等不规则模型进行处理。此外，点云数据中普遍存在的噪声和点分布不均匀等问题，也为后续的点云理解带来了诸多挑战。针对点云中具有不同语义特征的点，卷积模型需要准确地描述他们之间的关系和区别，本文旨在优化已有图卷积模型中的卷积核方程，即如何更动态、更灵活地提取每个点不同的特征。

「滑板底盘」如何成就Rivian等海外新势力？

基于自动驾驶和滑板底盘，汽车正在突破过去的固有形态。基于滑板式底盘的非承载式结构，乘用车没有上下连接的操控机构和复杂的笼式框架，整个车体上装可以进行更自由的空间规划。例如，Rivian R1T 就利用座舱与货箱之间空间设计了一个宽大的通道，不仅可以用来存放滑雪板、钓鱼竿等长物品，还开发了可收至其内的营地厨房，扩展出新的使用场景。它不仅加速了车企与出行企业推出新品的速度，更是打破了传统汽车的束缚，为全新的设计与下一个时代汽车形态的变化带来了转机。可以预见，一种新的产业格局正在形成，滑板式底盘也将由此从边缘走向主流。而未来智能汽车的创新，也即将开启去中心的「多元化时代」。

云仿真-自动驾驶商业化落地的催化剂

汽车的ADAS功能仅需要在有限、特定的场景下进行仿真测试验证即可，而高阶自动驾驶系统需要面对海量的测试场景。在此情形下，传统的单机仿真测试呈现出算力不足、且无法实现加速测试的问题，导致测试周期长，效率低；而云平台仿真凭借其分布式架构以及并行加速计算能力，可大大提升系统研发和测试的效率，是实现自动驾驶大规模仿真场景的有效解决方案。

阅读推荐

LiveVideoStack Meet城市特使第二波

距离重启LiveVideoStack Meet -《来，一起搞AV，LiveVideoStack Meet再启动》过去了大约三个月，我们交付了北京、苏州、杭州、成都（由于防疫要求成都完全通过线上交付）四个城市的活动。每到一个城市，都能给我们惊喜，负责的城市特使，有趣有料的讲师，低调务实的企业，活力四射的创业者......不仅如此，我们也招募到了更多的城市特使：南京-田钊乐刻运动、litta；长沙-张昊中南大学；广州-邓滨迷听科技；武汉-段维伟 RTC/VOIP 独立开发者；深圳-廖念波即构科技。

活动推荐

【城市沙龙】LiveVideoStack Meet|西安

人文历史遇到流媒体算法

西安作为十三朝古都，有深厚的人文历史底蕴。LiveVideoStack Meet第五站将于12月04日落地西安，我们邀请到了西安电子科技大学、迪威码半导体、网心科技、华为等校/企音视频领域嘉宾，从编解码、视频传输、边缘计算等多方面分享西安的多媒体发展，期待人文历史遇到流媒体算法能碰撞出不一样的火花。

活动时间：12月04日 14:00-17:30

活动地点：陕西省西安市电子科技大学北校区会议中心二层，203会议室

报名链接：

https://8392623630544.huodongxing.com/event/9624487473200

新知 | RT-ONE™&TRTC赋能实时音视频场景创新

今年腾讯云音视频发布了“三合一”的RT-ONE™网络。该网络整合了腾讯云实时通信网络（TRTC）、即时通信网络（IM）以及流媒体分发网络（CDN）三张网络，为业界最完整的音视频通信PaaS平台构建基座，面向教育、零售、泛娱乐等行业需求提供服务。本次新知系列的第一堂课，我们邀请到了腾讯云音视频的技术导师 —— 刘连响，为大家详解RT-ONE™并分享RT-ONE™&TRTC赋能实时音视频场景的一些创新。

接下来的5周，每周四晚上7：30，我们都会在腾讯云音视频视频号、开源中国、InfoQ、51CTO、云+社区等多个平台进行课程直播，大家千万不要错过哦~

插图源自Pexels

以上是关于音视频技术开发周刊 | 222的主要内容，如果未能解决你的问题，请参考以下文章