音视频技术开发周刊 | 237

Posted 2022-03-23 LiveVideoStack_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了音视频技术开发周刊 | 237相关的知识，希望对你有一定的参考价值。

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

由于内容和质量的高度多样性，用户生成内容 (UGC) 的视频质量非常难以评估，传统测量和评估视频质量的算法和模型不能很好起作用，在这样的情况，亟需针对 UGC 视频的视频质量评价方法。

使用 Puppeteer + canvas + WebCodecs 来代替 FFmpeg

技术团队将 Puppeteer、MP4Box.js、WebCodecs、canvas 和 FFmpeg（final muxing）结合在一起，创建了一个管道，为网络开发者提供熟悉的 canvas 图形 API，而不牺牲 FFmpeg 的性能。

低延迟体育中的内容感知播放

主讲人主要介绍了在直播体育的场景下，他们提出的内容感知速率控制算法，以避免直播重要时刻的卡顿。

音视频开发之旅（一）三种方式绘制图片

在Android开发中我们最常使用的绘制图片的方式就是ImageView，设置src。那么有没有其他方案可以实现图片的绘制呐？有三种方案！

iOS AVDemo（4）：音频解封装，从 MP4 中解封装出 AAC丨音视频工程示例

这里是第四篇：iOS 音频解封装 Demo。这个 Demo 里包含以下内容：1、实现一个音频解封装模块；2、实现对 MP4 文件中音频部分的解封装逻辑并将解封装后的编码数据存储为 AAC 文件；3、详尽的代码注释，帮你理解代码逻辑和原理。

人工智能语音识别帮助识别机器故障

声音提供有关计算机运行情况的重要信息。ETH研究人员现在已经开发出一种新的机器学习方法，可以自动检测机器是否“健康”或是否需要维护。

如何基于实时声纹变声实现对声音的“克隆”

「实时声纹变声」将颠覆传统的变声音效软件与AI实时变声体验，通过提取语音的音素特征与声纹特征等一系列技术手段，在实时音视频互动中可以将任意用户的语音实时变换成指定或任意一个他人的语音，实现像柯南变声器那样对声音的真正“克隆”，接下来我们将分别介绍传统主流变声方法与实时声纹变声背后的技术原理。

自回归解码加速64倍，谷歌提出图像合成新模型MaskGIT

来自谷歌研究院的研究者提出了一种使用双向 transformer 解码器的新型图像合成模型 MaskGIT，在性能和速度上都获得了大幅改进。实验表明，MaskGIT 在 ImageNet 数据集上显著优于 SOTA transformer 模型，并将自回归解码的速度提高了 64 倍。

视频编解码芯片设计原理--05 整像素运动估计

本系列主要介绍视频编解码芯片的设计，以HEVC视频编码标准为基础，简要介绍编解码芯片的整体硬件架构设计以及各核心模块的算法优化与硬件流水线设计。

实时通讯中的拥塞控制算法

实时通讯的需求不断增长，低延时的拥塞控制就显得由为重要。这样就有一个组织叫RMCAT专门来负责制定用于实时通讯的拥塞控制的标准。

马普所开源ICON，显著提高单张图像重建三维数字人的姿势水平

本文介绍了马普所二年级 CS 博士生修宇亮（Yuliang Xiu）入选 CVPR 2022 的一项三维数字人姿态重建新研究 ——ICON[1]。在本文中，他将详述这项工作的来龙去脉，包括厘清本研究的动机及思维起点 (motivation)、梳理出这二十多页论文的主线、论文中没提及的洞见 (insight)，并着重讲一下 ICON 的局限及改进思路。

字节跳动开源大模型训练框架 veGiantModel

字节跳动 AML 团队内部开发了火山引擎大模型训练框架 veGiantModel。基于 PyTorch 框架，veGiantModel 是以 Megatron 和 DeepSpeed 为基础的高性能大模型训练框架。

使用 FFmpeg 对直播流媒体进行内容分类

首先介绍了 FFmpeg 现有的滤波器，比如超分滤波器或者去雨滤波器。然后讨论了自定义创建场景分类器的过程，介绍了一些训练模型、使用 tensorflow 后端以及利用 GPU 运行模型的经验，该项目已完全开源。

FFmpeg 源码分析-转码4

本系列以 FFmpeg4.2 源码为准，本文主要分析 transcode_step() 的内部逻辑，以一条简单的命令开始，ffmpeg -i a.mp4 b.flv。

https://juejin.cn/post/7052338143004983303

星球专享 | 播放器 FFmpeg 依赖库的配置

众所周知，FFmpeg 是有很多编译选项和依赖选项的，打开工程之后，接下来就要添加 FFmpeg 的依赖了。这里并不打算讲要如何编译 FFmpeg ，因为一开始就被编译困住了，很难接下来的学习，反而有一种简单的方式直接拿编译好的库就行了。

公网传输技术之SRT协议解析（上）

本文将从SRT协议的原理分析入手，尝试定义出一个衡量SRT链路可靠性高低的指标：链路安全冗余量(Secure-Margin)，并详细介绍如何依照这个指标来部署一个可靠的SRT传输链路，并分析在不同的直播场景中的参数调整策略。

基于 QUIC 的低延时视频

QUIC (RFC 9000) 是一种新的网络协议，将视频映射到 QUIC API 有多种方法，具体取决于目标延迟和用户体验。在 Twitch/IVS，一个新的分发协议 (Warp) 被构建来替换原来的 HLS 堆栈，利用独特的优先级方案来最大限度地减少面对拥塞时的延迟。

FaceShifter：一秒换脸的人脸交换模型

如今，深度学习已近在图像合成、图像处理领域中取得惊人的成果。FaceShifter 便是其中之一，它是一种深度学习模型，可以非常先进的技术实现人脸交换。在本文中，我们将了解它是如何工作的。

Transformer将在AI领域一统天下？现在下结论还为时过早！

从自然语言处理任务起家，又在图像分类和生成领域大放异彩，所向披靡的 Transformer 会成为下一个神话吗？

2022斯坦福AI指数报告出炉！中国霸榜AI顶会，但引用量最低

2022年人工智能指数报告发布了！这份报告中，中国在AI顶会论文上表现不凡，但在引用数量方面却低于美国、欧盟和英国。

人工智能的学习经验总结！

在现在这个时代，我们以前的学习方式不太适用了，如果想高效率的学习，需要转换一种学习方式，不妨从实用的角度出发，遇到不会的再去查漏补缺，这样效率更高。

什么是AR衍射光波导？

衍射光波导是较为主流的AR眼镜光学显示方案，很多AR眼镜采用的都是这种显示方案，为什么各大AR硬件厂商如此青睐衍射光波导？衍射光波导究竟是什么？今天小编就带大家了解一下什么是衍射光波导。

分享 | 建筑设计师不可错过的3款增强现实(AR)软件

ARki、Fologram、Twinbuild和Gamma AR为设计师、承包商和业主提供了从制造、施工到运营和维护在真实世界中精确参考数字模型的能力。

AR技术在物理实验教学中的应用与实践

将AR技术与传统纸质教材和实验仪器或实验装置实物进行结合，学生通过手机等移动端就可以观看实验仪器或装置的内部三维模型和三维动画等内容，实现了仪器或实验现象的可视化和交互化操作。

2022：AR迈入新纪元丨深度

增强现实可以说是迎来了发展的春天，不论是从硬件角度来看，还是从技术上的发展来看2022年，尽管AR技术发展依旧长路漫漫，但或许已经到了能够为世界经济和科技的下一步发展提供可靠动力的关键节点。

图像分类的主要难点

图像分类是根据图像的类型（类别）为图像分配标签的过程。考虑我们有以下类别的图像：猫和狗因此，当我们将给定类别的图像提供给图像分类系统时，系统会根据类别为图像分配标签。

腾讯老照片修复算法开源，细节到头发丝，3种预训练模型可下载

还记得能将老照片修复到纤毫毕现的GFPGAN吗？现在，它的代码正式开源了！官方已经在GitHub上传了3个预训练模型。

自动驾驶的第五大感知技术：“听觉”+自动驾驶

回顾2021，各大互联网、科技巨头纷纷涉足自动驾驶产业，加速自动驾驶产业的布局。随着资本的不断涌入，以及相关法规政策的完善，自动驾驶产业驶入了发展的快车道。

聊聊未来自动驾驶必须解决哪些感知问题

对于研究下一代智能汽车的系统设计、软件开发而言，需要解决包含架构设计、功能开发、车辆控制等方面的诸多问题，而以上问题的根源都在于环境感知的能力研究。

阅读推荐

Web音视频应用开发趋势

互联网上的视频应用越来越普及，音视频方面的技术也越来越成熟，单从局部上做出技术创新已经非常之难。曾经“很难”的音视频技术逐步被人们所克服，“折叠”成一个个具体的模块、组件、SDK和云服务。接下来我们就看看Web端给音视频应用开发者带来了哪些新的东西与能力。

M3U8 文件格式详解

M3U8 是 Unicode 版本的 M3U，用 UTF-8 编码。"M3U" 和 "M3U8" 文件都是苹果公司使用的 HTTP Live Streaming（HLS）协议格式的基础，这种协议格式可以在 iPhone 和 Macbook 等设备播放。

VVC采用缘何频频受阻？

VVC正在进入一个竞争激烈的编解码器市场，身在其中，它的未来将更依赖专利费用成本，而非它的技术标准。最近，Charles River Associates 在Unified Patents 上发布了一份VVC economic report ，其中详述了VVC正在面临来自MPEG的EVC、现存的HEVC、AVC以及AOM联盟AV1的激烈竞争。

人物专访 | 首都在线助力中国企业出海，提供全球云网服务一体化方案

近日，有幸采访了首都在线的首席网络架构师刘铮，聊一聊首都在线目前提供的服务、在音视频行业关注的重点以及如何助力中国企业出海等话题。

构建DRM系统的重要基石——EME、CDM、AES、CENC和密钥

任何想要理解DRM的人都要遇到AES、CDM、CENC、EME等缩略词。对于初学者来说，这些词很容易混淆，但只有理解了它们，才能真正地理解DRM。我们将在本文中简单介绍DRM的基本构成：EME、CDM、AES、CENC以及密钥和密钥服务器的使用。

大视场全息AR显示：锥形全息光学元件

近期，元宇宙概念的兴起，极大的推进了增强现实（AR）和虚拟现实（VR）技术的发展。为了进一步提升 AR 显示中用户与现实场景交互的 3D 沉浸式体验，解决辐辏和调节冲突以及视疲劳等问题，人们引入了全息显示技术，该技术可以完整的重建出3D物体的波前信息，获得双眼视差和连续运动视差，被认为是理想的 3D 显示技术之一。

活动推荐

LiveVideoStackCon 2022 上海站

LiveVideoStackCon 音视频技术大会是多媒体技术领域的盛会，分享技术创新与最佳实践，至今已在北京、上海等多地成功举办九届大会。历经半年多的时空隔阂，我们将于5月20日-5月21日在上海举行一场音视频领域的线下聚会。点击「阅读原文」了解更多大会详情。

以上是关于音视频技术开发周刊 | 237的主要内容，如果未能解决你的问题，请参考以下文章