音视频技术开发周刊 | 258

Posted 2022-08-16 LiveVideoStack_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了音视频技术开发周刊 | 258相关的知识，希望对你有一定的参考价值。

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

LiveVideoStackCon 2022 北京站讲师招募开始啦！

11月4-5日，LiveVideoStackCon 2022 北京站将与大家继续探索音视频技术在不同场景下的融合与发展，在这里不仅可以与业内大佬们进行技术上的心得交流，还可以感受到多媒体生态内的头部公司、顶级玩家对行业当前发展趋势、瓶颈挑战，与对未来规划的深入解读。LiveVideoStackCon是每个人的舞台，如果你在团队、公司中独当一面，在某一领域或技术拥有多年实践，并热衷于技术交流，欢迎申请成为LiveVideoStackCon的讲师。

点击「阅读原文」，即可在网页下方报名，还可查看讲师权益与申请条件。

或提交演讲内容+个人介绍至邮箱：speaker@livevideostack.com，

我们将尽快审核并通知您最终结果。

从抖音到火山引擎——看流媒体技术演进和机会
火山引擎RTC负责人宋慎义老师，为我们从实时性、沉浸式、跨地区和开发者等四个方向，来看从抖音到火山引擎，流媒体技术演进过程和机会。在宋慎义老师的演讲中，我们看到了火山引擎一路走来的历程，也了解到通过结合不同的场景，火山引擎对外来探索的坚持。

音视频基础--HEIF Android走读2
今天继续HEIF Android走读第2部分，按照锁屏的流程跟踪HEIF文件解码，但是libheif中并没有做真正的解码动作，而是借用MediaMetadataRetriever完成MediaExtractor的调用，完成Stagefright框架的解码...

音视频开发之旅（22) STL 之容器
本次主要学习内容：STL的六大部件介绍、容器分类、序列式容器介绍（vector、list、deque）、关联式容器、资料、收获。

FFplay视频播放原理分析
本文从整体播放流程出发，介绍了 FFplay 播放器播放媒体文件的主要流程，不深陷于代码细节。同时，对 FFmpeg 的一些常用函数有了一些了解，对我们自己手写一个简单的播放器有很大的帮助。

云/移动端媒体处理技术分享
今天在部门内做了一个分享，我整理了一下也分享给大家。文章的内容是我在上家单位做的云剪辑和短视频处理用到的一些技术和架构。

短视频无尽流前端开发指南
短视频无尽流是当下比较热门的一种业务场景，在日常生活中随处可见。本文基于对家装家居内容短视频无尽流的开发实践，总结出了一套适应于该场景及衍生场景的前端开发指南，通过阅读本文可以快速了解短视频无尽流的前端开发。

音视频学习--运动估计搜索算法四
前面几篇的学习基本介绍了非常经典的运动估计搜索算法，有其优点，也有其天生的缺点，容易陷入局部最优解的陷阱中，本期就来聊一聊这些问题。

对话Karlheinz Brandenburg教授：MP3的巨大成功源自其高效的音乐压缩技术和优秀的商业许可模式
在这次邮件采访中，Brandenburg教授谈论了他是如何开始MP3研究工作的，他与团队在开发过程中所遇到各种挑战、MP3获得巨大成功的重要原因，以及MP3给音乐行业所带来的毁灭性灾难。

听声辨物，这是AI视觉该干的？？？｜ECCV 2022
听到“唔哩——唔哩——”的警笛声，你可以迅速判断出声音来自路过的一辆急救车。能不能让AI根据音频信号得到发声物完整的、精细化的掩码图呢？来自合肥工业大学、商汤、澳国立、北航、英伟达、港大和上海人工智能实验室的研究者提出了一项新的视听分割任务（Audio-Visual Segmentation, AVS)。

音频新方案带给VR更“真实”的音频体验
作为约克大学XR Stories项目的一部分，专家们提出了一种新的声音方法来开发VR环境，该方法基于人们如何从现实世界接收图像和声音，最终改善用户体验并降低VR眩晕的风险。

USound带来超紧凑型可听设备音频方案
用于可听和可穿戴设备的微机电系统（MEMS）扬声器的供应商USound宣布推出旨在增强TWS和OTC助听器性能的音频模块。

论文推介：全双工通话中的个性化声学回声消除
回声消除（acoustic echo cancelation, AEC）是一项典型的语音信号处理任务。近期，西工大音频语音与语言处理研究组针对个性化AEC初探的论文，探索了一种全双工通话中的个性化回声消除方法。现对该论文进行简要的解读和分享。

阿里云全球实时传输网络GRTN—QOE优化实践
直播已深入每家每户，以淘宝的直播为例，在粉丝与主播的连麦互动中如何实现无感合屏或切屏？阿里云GRTN核心网技术负责人肖凯，为我们分享GRTN核心网的运作机制、运用方面以及QOE的网络模型在业务板块的实践优化。

华为云SparkRTC面向低时延、大通量传输业务的技术探索
网络和移动设备高速发展的今天，人们开始思考如何用更短的时间下载更大的文件，追求更快的速度。当下在稳定的基础上有什么方法可以提升速度呢？华为云的吴治宗老师，为我们分享华为云SparkRTC面向低时延、大通量传输业务的技术探索。

低延时实时音视频在5G远程操控场景的应用实践
本次分享将介绍5G远程实时操控行业应用场景对音视频传输的要求，以及腾讯云音视频针对5G远程实时操控场景的音视频传输优化和应用落地实践。

从0到1讲解HTTP/3
IETF贡献者、HTTP/3和QUIC工作组成员Robin Marx，去年在Smashing Magazine上发表了一系列讲解HTTP/3和QUIC的文章，我们向Smashing Magazine和Robin本人申请翻译该系列文章，并在未来一段时间依次将其发表在LiveVideoStack的平台上，以飨读者。

淘宝多路径 QUIC 服务
XLINK，是一种多路径 QUIC 视频传输解决方案，在淘宝短视频中进行了实验。XLINK的核心是利用QUIC作为用户空间协议的机会，直接捕捉用户感知到的视频QoE意图来控制多路径调度和管理。

MediaCodec 在 Android 硬解码的路线
Android系统在Android4.0增加了 MediaCodec，可以支持app调用java接口，进而使用底层硬件的音视频编解码能力。MediaCodec 可以处理编码，也可以处理解码；可以处理音频，也可以处理视频，里面有软解（cpu），也有硬解（gpu）。

H264码流之AnnexB和AVCC
在H264码流中是如何将NALU进行分割的？要搞清楚这点，就需要了解目前H264主流的码流组织方式AnnexB和AVCC两种格式，其中Android的硬解码MediaCodec只支持AnnexB格式的数据，而Apple的VideoToolBox只支持AVCC。

Android FFmpeg系列01--编译与集成
FFmpeg是一套用于录制、转换和流化音视频的完整的跨平台解决方案，它的强大之处不用过多描述，本文主要介绍如何编译出so文件和在Android Studio工程中的引入。

Android FFmpeg系列04--FFmpeg调用MediaCodec进行硬解码
本文基于之前的Demo添加了FFmpeg使用MediaCodec来硬解码的方式，包括解码出buffer再利用OpenGL进行渲染上屏和直接解码到Surface然后上屏两种方式。

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

紧抓多媒体生态趋势，将浏览器、WebAssembly和Rust等热点结合
熟知播放器工作原理，为实现商业化H.264/H.265播放器打下坚实基础
课程包含图文、代码、视频，降低学习门槛
李超精准讲解，及时详细解答

↑识别上图二维码立即订阅。

【最新开源】ECCV22|美女秀发随风飘动，发丝抠图一点不差
在本文中，我们将这项任务推向了一个更实际的环境，并提出了一种仅使用一个用户注释的Trimap就可以稳健地执行视频抠图的Trimap视频抠图网络（OTVM）。OTVM的关键是trimap传播和alpha预测的联合建模

 神经网络可视化有3D版本了，美到沦陷！（已开源）
做计算机视觉，离不开CNN。可是，卷积、池化、Softmax……究竟长啥样，是怎样相互连接在一起的？对着代码凭空想象，多少让人有点头皮微凉。于是，有人干脆用Unity给它完整3D可视化了出来。

【最新开源】港科大开源倒金字塔多任务Transformer！
在本文中，我们提出了一种新的端到端倒金字塔多任务Transformer（InvPT），用于在统一框架中同时对空间位置和多个任务进行建模。

ECCV 2022 | AvatarCap: 清华最新开源的单目人体捕捉方案
本文作者来自清华大学，作者提出了一种基于可驱动 Avatar 的单目人体捕捉技术，首先从少量的人体彩色扫描数据重建可驱动的人体模型，然后基于此模型，将单目彩色相机作为输入，捕捉视频中的人体运动。文章代码已开源。

10 款更先进的开源命令行工具
本文整理了 10 款开源命令行工具，这些开源项目不仅实现了和 Linux 命令相同的功能，而且它们与时俱进地加入更多新功能，从而在使用方式、性能和展示效果上更胜一筹。

干货整理！10个主流Python图像处理工具
在图像处理领域，一库在手，相当于天下已有。最近，有一位搞数据科学的小姐姐Parul Pandey，整理了一份实用Python图像处理工具，内含十大经典Python库。

基于时空相似照片的 3D Moments
本文提出了一种新颖的动态三维图像，并称之为 3D Moments，基于从两个相近的视角位置拍摄到的相近时间的两张图片，合成出一个可以同时实现自由视和动作插值的较短的时空视频。本文提出通过分层深度图（LDI）和光流完成这一任务的模型。

图片的实时渲染和离屏渲染
之前我们比较多的介绍视频的渲染和处理，本文我们想谈一谈图片，我们知道视频本质上是一帧帧的“图片”组成的，都了解了视频了，图片还需要去了解吗？图片的渲染和视频有相通之处，也有其独特的特点。

浅析深度学习在图像处理中的应用趋势及常见技巧
图像处理领域是深度学习和机器视觉领域重要的研究分支，本文第一部分将介绍深度学习中图像处理的常用技巧，第二部分则会浅析深度学习中图像处理的主流应用。

Android 图形架构
要理解Android的图形架构，我们需要先理解window的概念。因此，Android图形架构的就是把各个应用创建的一个个window组合显示到显示屏上的架构。

使用 TensorFlow 2.x API 介绍图像中的显着性图
显着性图是深度学习和计算机视觉的一个关键主题。在深度卷积神经网络（CNN）的训练过程中，了解每一层的特征图变得至关重要。CNN 的特征图告诉我们模型的学习特征。而显着性图主要关注图像的特定像素，而忽略其他像素。

OpenCV变脸大法--让妖怪现原形(附源码)
我们常常在影视作品中看到一些类似的特效，比如一张人脸慢慢变成另一张人脸或者动物的脸，其中颇具代表性的就是《西游记》了，本文将介绍如何使用OpenCV和Dlib来实现类似功能。

简单易懂的讲解深度学习（入门系列之二）
在前面的小节中，我们仅仅泛泛而谈了机器学习、深度学习等概念，在这一小节，我们将给出它的更加准确的形式化描述。

图像大面积缺失，也能逼真修复，新模型CM-GAN兼顾全局结构和纹理细节
来自罗彻斯特大学和 Adobe Research 的研究者提出了一种新的生成网络 CM-GAN，很好地合成了整体结构和局部细节，在定量和定性评估方面都显著优于现有 SOTA 方法，如 CoModGAN 和 LaMa。

50个最佳机器学习公共数据集
外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息，整理了一张50个最佳机器学习公共数据集的榜单，为大家分享一下~

机器学习初学者易踩的5个坑
近日，软件架构师、数据科学家、Kaggle 大师 Agnis Liukis 撰写了一篇文章，他在文中谈了谈在机器学习中最常见的一些初学者错误的解决方案，以确保初学者了解并避免它们。

从特斯拉林某某事故看Transformer
特斯拉基于纯视觉的Transformer将多摄像头特征有效融合到BEV空间进行感知，更是引起了大家对Transformer的广泛关注。近期，我们对Transformer模型进行了深度剖析，对于模型的应用场景、算法原理、算子以及硬件加速做出了多方位思考。

自动驾驶多车协同与人机协同现状详细总览
由于多车协同与人机共驾本身也是两个非常大的研究领域，从通信技术、到云端边缘计算、到车辆控制、到驾驶员状态预测等等，本篇博客未能做到全面，而是侧重于其中的“控制”问题进行展开介绍，旨在以低的知识接受门槛，获得高的知识广度。

BEVDet，一个多摄像头在BEV视图的3-D目标检测方法
自主驾驶能够感知周围环境进行决策，这是视觉感知最复杂的应用场景之一。本文提出BEVDet，根据在鸟瞰视图（BEV）中检测3D目标，因为BEV能方便地执行路线规划（route planning）。

自动驾驶中间件——SOME/IP
SOME/IP是一种都有所耳闻的以太网的上层协议，但是其诞生历史和协议内容都知道的不多吧！SOME/IP的诞生是在以太网引入汽车之后更深入的发展，因此我们需要从车载以太网的历史开始讲起。

一文聊聊自动驾驶决策系统
自动驾驶是集感知、决策、控制于一体，充分考虑车辆与交通环境协调规划的系统，也是未来智能交通系统的重要组成部分。决策则像大脑，可以对路况进行分析，并做出接下来一步的动作，控制则是让自动驾驶汽车可以根据大脑（决策）分析的结果，做出动作。

人工智能技术在智能驾驶控制中的应用
目前，越来越多的基于人工智能的方法被应用到智能驾驶系统中来。人工智能方法的引入使得智能驾驶控制问题得到了更多的解决方案。

自动驾驶车道线检测分类的虚拟-真实域适应方法
虽然自主驾驶的监督检测和分类框架需要大型标注数据集，但光照真实模拟环境生成的合成数据推动的无监督域适应（UDA）方法则是低成本、耗时更少的解决方案。本文提出对抗性鉴别和生成方法的UDA方案，用于自动驾驶的车道线检测和分类应用。

大神自制 AR 传送门，不同空间任意开洞穿梭！网友直呼魔法
传送门可以说是人类最想拥有的超能力之一了，要想在现实中体验，那确实只能想一想了。不过，利用虚拟现实、增强现实等技术，可以从视觉上实现传送门，这在游戏和电影中都经常能见到。

2022上半年VR/AR产业发展报告
进入2022年，元宇宙概念掀起的浪潮仍在奔涌，市场也在加速拥抱VR/AR行业新风口。截止2022年6月30日全球7大平台共有15056款VR内容（含重复内容）。国内VR内容数量仍非常少，大部分内容靠海外引进。

VR硬件进化史：从“盒子”到“笼子”
要想体验VR就得用到VR硬件，自从2016年国内诸多VR企业发布新品，VR开始走进国人的视野，时至今日VR硬件经历过多次的迭代升级，用户体验也获得了显著的改善，本期的万花筒将带你了解VR硬件的进化史。

WebXR 技术调研 - 在浏览器中构建扩展现实（XR）应用
WebXR 是一组支持将渲染 3D 场景用来呈现虚拟世界（虚拟现实，也称作VR）或将图形图像添加到现实世界（增强现实，也称作AR）的标准。通过该 API 可以访问 VR/AR 虚拟设备和跟踪用户姿态动作。它用于替换已经废弃的 WebVR API。

阅读推荐

用皮肤“听”音乐，网友戴上这款装备听音乐会：仿佛住在钢琴里
贝多芬失聪后继续创作的故事相信大家都听过。那你有没有想过，他究竟是如何做到的？初中物理课上，老师告诉我们：失去听力的贝多芬，用牙咬住木棒一端，另一端顶在钢琴上，以此感受钢琴的震动，坚持创作。而现在，科学家的最新研究恰好也证实了这一点：音乐不仅可以听，还能摸！

想通这点，治好 AI 打工人的精神内耗
诸神黄昏算法岗，作为招聘中最靓眼的仔，简历门槛早已是硕士打底博士起步，项目竞赛多多益善的情况了。所以，一个亘古不变的难题又双叒卷土重来，冲上 Reddit 论坛：毕业后到底是继续做学术好？还是进入公司好？

中国率先定调自动驾驶商用，首个指南文件出炉！美国立马急了
8月8日，交通部下发《自动驾驶汽车运输安全服务指南（试行）》征求意见稿，首次对自动驾驶的商用落地，作出了方向性规定和指示。这是国内首次对自动驾驶商用作出明确指引，也是全球范围内真正意义的第一枪。有意思的是，就在指南对外公开后，美国立法者，急了。

内容制作的未来：5大趋势
这篇文章主要介绍了内容制作未来的5大趋势，包括创作模式（XR、虚拟制作、人工智能讲故事和电脑游戏）、工具（人工智能）、制作方法（沉浸式实时制作）、内容形式（屏幕生活）和交互创新（电子游戏与电影结合）的发展趋势。

活动推荐

【活动推荐】视界无垠音聚而生——2022网易音视频技术大会

面对层出不穷的新场景、新应用、新模式，音视频技术需要不断升级，与时俱进。为此，8 月 18 日，网易智企将在线上举办一场干货满载、大牛云集的 2022 网易音视频技术大会。

本次大会以“视界无垠音聚而生”为主题，分设“产品专场”和“技术专场”两大专场，邀请了来自网易智企、网易云音乐、网易传媒、网易伏義、Intel 等众多聚焦于音视频领域多年的技术专家，分享音视频技术的前沿创新与应用实践经验。

• 如何基于虚拟交互技术，在元宇宙世界进行社交？

• 人工智能技术，如何赋能网易云音乐的内容生产？

• 在同等码率下，智码超清是怎么带给用户高质量视觉体验的？

• 英特尔全栈技术如何实现端到端的音视频优化？

……

扫描上图二维码，你正在关心的音视频技术难题，这场大会都会为你找寻到答案。

以上是关于音视频技术开发周刊 | 258的主要内容，如果未能解决你的问题，请参考以下文章

音视频技术开发周刊：FFmpeg内置的一个无中生有的音视频输入数据 | 214

音视频技术开发周刊 | 226

音视频技术开发周刊 | 227

音视频技术开发周刊 | 237

音视频技术开发周刊 93期

音视频技术开发周刊 | 204