音视频技术开发周刊 | 221

Posted 2021-12-18 LiveVideoStack_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了音视频技术开发周刊 | 221相关的知识，希望对你有一定的参考价值。

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

随着视频与交互在日常生活中的作用日益突显，愈发多样的视频场景与不断提高的视觉追求对视频编码提出更高的挑战。相较于人们手工设计的多种视频编码技术，AI编码可以从大数据中自我学习到更广泛的信号内在编码规律。工业界与学术界发力推动AI视频编码标准并进行新框架的探索。阿里云视频云在JVET面向人眼的视频编码标准和MPEG面向机器视觉的视频编码标准上均做出重要贡献，对标准发展产生强有力的推动。结合产业需求强劲的视频会议、视频直播等场景，阿里云视频云还开发了AI生成式压缩系统，在同等质量下比VVC节省2-3倍码率，实现真正的超低码率视频通信。本次LiveVideoStackCon 2021北京站我们邀请到了阿里云智能视频云算法专家——王钊，为大家分享阿里云在AI视频编码技术的新探索。

腾讯云海外音视频技术架构 — 挑战和优化
腾讯云海外直播平台不仅具备优质的物理资源，在软实力上也得到了很大提升。在传输层上，除了传统的TCP协议，同时还支持基于UDP的加速协议QUIC。在流媒体协议上，支持传统的RTMP、HTTP-FLV、HLS等协议，同时支持多码率自适应HLS和DASH，在此基础上，升级实现了低延时的CMAF协议。近年来，基于WebRTC协议，海外直播系统实现了秒级延时的WebRTC低延时直播能力，在播放QoS优化上迈出了更大的一步。本次LiveVideoStackCon 2021北京站我们邀请到了腾讯云高级工程师，腾讯云直播海外技术负责人——胡仁成，分享在海外音视频架构实践中遇到的一些挑战和优化思路。

视频编码标准、优化和画质评估
对于下一代编解码技术H.266/VVC标准，相比前一代H.265/HEVC标准，可以在主观质量不变的情况下节省约50%的码率。H.266/VVC标准之后是否还会有新的标准，如果有，可能涌现出哪些新技术？此外，在有限的码率下，如何设计高效的视频编码压缩方案，为用户提供最佳的视频画质体验。本次LiveVideoStackCon 2021北京站我们邀请到了火山引擎资深研究员——刘明和火山引擎资深研究员——罗亚，两位老师分别为大家详细介绍视频编码标准中的新技术，以及对下一代标准的探索；火山引擎视频云在视频的自适应编码优化和画质评估方面的探索与实践，探讨如何高效地优化不同内容视频的编码，在保证画质的前提下，尽可能的节约视频码率。

网易云信自研大规模传输网核心系统架构剖析
随着边缘计算及RTC技术的兴起，业务服务器的边缘化可以带来大量收益：一方面就近接入可以优化客户端上下行质量，另一方面边缘节点可以大幅降低带宽成本。但如何保证相隔千山万水的边缘服务器之间的网络传输质量成了一个难题。本次LiveVideoStackCon 2021北京站，我们邀请到了网易云信服务端首席架构师——吉奇通过分析网易云信自研大规模分布式传输网（WE-CAN）核心系统的架构对上述问题进行了深入探讨。

IBM Cloud 助力音视频解决方案成功出海
IBM有将近60个数据中心和PoP点，音视频客户能依托IBM的所有站点在全球部署节点。此外，IBM所有数据中心搭建了全球内网专线，所有数据中心的内网传输免费，节点的数据同步没有任何开销，在经典网络环境中，IBM在全球机房提供了强大的金属裸机, 同时也供应灵活部署的虚拟机加快构建异构的音视频服务。在本次LiveVideoStackCon 2021北京站，IBM 胡磊分享了IBM Cloud 助力音视频解决方案成功出海。在此次LiveVideoStackCon 2021 音视频技术大会北京站，我们邀请到了IBM云平台事业部资深云计算架构师——胡磊，为我们介绍了IBM Cloud 是如何助力音视频解决方案成功出海的。

基于学习的点云残差编码

对点云编码，作者提出了基于学习的残差编码模块，实现高效可伸缩的编码。类似于此前几个基于学习的压缩方法，他们也在一个分层框架中实现了这个方法，并且使用了 G-PCC 标准中的两个几何压缩模块（即 Octree 和 TriSoup）对该算法进行比较评估。

VVC层级结构中基于神经网络的参考帧生成
本文来自JVET-X0060 《NN-based Reference Frame Interpolation for VVC Hierarchical Coding Structure》。提案针对VVC的层级结构提出了基于深度神经网络（DNN）的参考帧生产方法。在编码和解码过程中，参考列表中的两个重建帧作为网络输入，输出为新生成的帧。新生成的帧再经过一个滤波网络的处理，然后插入到参考列表最后的位置。该方法Y、U、V节省的码率分别为1.47%/4.19%/3.85%。

端到端视频压缩中的双向预测
本次演讲主要对论文《Bi-directional prediction for end-to-end optimized video compression》进行了介绍，本文以基于神经网络的端到端视频压缩框架为基础，提出了一种高效的双向预测方法。

FFmpeg 调用 MediaCodec 硬解码到 Surface 上

众所周知，MediaCodec 的解码能力不仅可以解码出 YUV 数据，还能直接解码到 Surface 上。在短视频领域中，MediaCodec 解码到 Surface 上的能力反而更加常用，这样就能将画面转到 OES 纹理上，从而进行后续各种渲染操作。

苹果获空间音频新专利
近日，美国专利和商标局正式授予苹果一项与auralization领域相关的专利。更具体地说，它涉及到虚拟3D环境实时化的技术。AR/VR环境中的大多数创新都集中在游戏的虚拟3D环境上。苹果获得的专利包括虚拟环境的“听觉化”，它描述了模拟声音在外壳内传播，其中几何声学（GA）的方法可以用于模拟声波的某些真实行为的高质量的听觉刺激合成。苹果正在努力将空间音频提升到新的维度。

SRT协议的数据包结构分析

公共互联网中普遍存在着不同程度的丢包、抖动、延时和带宽波动，这就需要一种可靠的传输协议来保证传输链路的可靠性。SRT（Secure Reliable Transport）协议-即安全可靠传输协议，是一种新兴的视音频传输协议，在视音频的点对点实时传输方面有着非常好的应用效果，近年来其在广电领域的发展也呈现出多点开花的趋势，在现场直播、远程制作、远距离传输、上行推流等多方面都有着广泛的应用。在实际工作中，理解和掌握SRT协议的数据包结构能够帮助我们完成链路架设和调试，本文从SRT协议的工作流程入手，对SRT协议的数据包结构进行解析，之后举例介绍如何利用Wireshark软件进行抓包分析，从而排除链路故障或者获取链路信息。

阅读链接：https://www.livevideostack.cn/news/srt-polly/

VR 体育的未来

来自 BT Sports 的 Jamie Hindhaugh 和来自 Tiledmedia 的 Rob Koenen 详细介绍了比特率、硬件解码器、软件、计算能力和其他为用户带来如此高分辨率视频、定制回放所使用的组件。两位主讲人所在的公司负责了英超联赛、欧洲冠军联赛在欧洲的转播，尤其是 4k、360° 等形式的体育赛事直播。

Meta 推出《头号玩家》中触觉手套原型，伸向元宇宙的“触手”出现了
从今年3月开始，Meta(原名Facebook)的现实实验室 (RL) 就开始了触觉感知手套的新项目，直到昨天，Meta正式推出触觉感知手套，并分享了关于软体机器人、微流控处理器、手部跟踪、触觉渲染和感知科学方面的工作进展。

统一视角理解目标检测算法：最新进展分析与总结

目标检测中有好多概念，例如两阶段、单阶段、anchor-free、anchor-based等等，但其实这些概念并没有十分严密的理论体系，也没有非常明确的划分标准，这也导致目前目标检测领域的研究看起来比较混乱。所以本文尝试理出一条更为清晰的体系框架，来更好的理解现有的目标检测算法，或是给以后的研究提供一个更清晰的思路。

大道至简，何恺明新论文火了：Masked Autoencoders让计算机视觉通向大模型
11 月 12 日，一篇由 Facebook AI 研究院完成、何恺明一作的论文《Masked Autoencoders Are Scalable Vision Learners》成为了计算机视觉圈的热门话题。这篇论文展示了一种被称为掩蔽自编码器（masked autoencoders，MAE）的新方法，可以用作计算机视觉的可扩展自监督学习器。

关于单目 3D 检测最新成果，你想知道的都在这啦！

虽然基于点云的 3D 目标检测方法性能不断提升，但是激光雷达相对高昂的造价和对各种复杂天气情况的敏感性推动着研究人员开始更多地探索基于视觉的 3D 目标检测，其在近几年成为越来越热门的研究方向。本文主要介绍单目 3D 目标检测的一些最新研究进展，同时带来一些笔者的思考。

双11结束黑五再继续，零售巨头首推自动送货
中国人的双十一刚过，对于美国人来说，他们的购物节“黑色星期五”也即将来临。面对即将到来的购物节，全球零售商超巨头沃尔玛宣布开始使用全自动驾驶卡车运输货物。“这是零售行业首次采用‘无人卡车’运输货物”，沃尔玛高管表示，“这些卡车上只有货物，没有司机。” 据了解，沃尔玛使用的全自动无人驾驶卡车，是与硅谷初创公司Gatik合作的，目前主要用于短途运输，最常见的就是从配送中心运到门店。Gatik数据显示，自动驾驶卡车能将货物运输成本降低30%。目前，沃尔玛正在美国其他地区进行类似的测试，希望继续推广这种运输模式。

自动驾驶时代，巨头Tier 1的困境与突围
曾几何时，博世、大陆、德尔福、采埃孚…这些国际巨头一级供应商是令自主品牌车企仰望的存在。它们把控着整车上最核心的技术，拥有着绝对的议价能力，甚至他们的开发进度直接决定了车型的研发周期。而到了自动驾驶时代，巨头Tier 1们本想延续在底盘电控和ADAS上的绝对优势，但没想到在特斯拉的示范效应下，车企们纷纷选择“换个活法”。为了提升对自动驾驶技术的掌控能力，车企们开始与上游的芯片、算法供应商达成广泛合作，自己干起来了原属于Tier 1的系统集成的活。更有甚者，车企还会自研算法、自研芯片、自研操作系统…在这种产业链大洗牌的背景下，巨头Tier 1的生存空间遭到空前挤压——人才外流、技术壁垒撼动、品牌溢价丧失。毫无疑问，它们面临困境了。

活动推荐

【城市沙龙】LiveVideoStack Meet|西安

人文历史遇到流媒体算法

西安作为十三朝古都，有深厚的人文历史底蕴。LiveVideoStack Meet第五站将于12月04日落地西安，我们邀请到了西安电子科技大学、迪威码半导体、网心科技、华为等校/企音视频领域嘉宾，从编解码、视频传输、边缘计算等多方面分享西安的多媒体发展，期待人文历史遇到流媒体算法能碰撞出不一样的火花。

活动时间：12月04日 14:00-17:30

活动地点：陕西省西安市电子科技大学北校区会议中心二层，203会议室

报名链接：

https://8392623630544.huodongxing.com/event/9624487473200

插图源自Pexels

以上是关于音视频技术开发周刊 | 221的主要内容，如果未能解决你的问题，请参考以下文章