音视频技术开发周刊 | 274

Posted 2022-12-16 LiveVideoStack_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了音视频技术开发周刊 | 274相关的知识，希望对你有一定的参考价值。

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

「紧急通知」LiveVideoStackCon 2022 音视频技术大会北京站改期
 各位LVSer们：
因疫情影响，北京近期不再允许举办大型线下活动，我们无奈且抱歉的通知大家LiveVideoStackCon 2022音视频技术大会北京站大会将暂停举办，延期至2023年第一季度召开，具体时间待疫情稳定允许后再另行通知。我们感谢所有为此次大会付出时间和努力的伙伴们，相见是肯定的，非常情况下，好事更多磨吧！因此给大家带来的不便，我们深表歉意。

LiveVideoStack会务组

2022年11月24日

AI自动剪辑生成视频探索实践
在音视频技术大会上，网易云音乐音视频算法专家赵剑，详细介绍网易云音乐结合多年音乐领域多模态算法能力积累与实际业务需求，实现AI自动剪辑生成视频的技术探索与与实践。

音视频开发之旅（40)-贝塞尔曲线和曲面
通过本文了解贝塞尔曲线的由来和实现原理，通过androidPath和OpenGL两种方式画贝塞尔曲线，以及进行性能对比，让画面动起来，实现贝塞尔曲面。

流媒体服务新手入门教程02--m7s环境搭建
m7s后端采用golang语言开发，并提供了前端页面。前端采用vue开发，在2.x的时候是开源的，3.x则闭源了。下面我们说一下怎么搭建m7s环境并发布视频流。
https://juejin.cn/post/6988878643812384776

一看就懂的 OpenGL 基础概念（4）：各种 O 之 FBO丨音视频基础
上面我们介绍了通过 VBO、EBO 和 VAO 管理渲染过程中的数据来优化渲染性能，接下来我们来介绍另一个重要的 XXO：帧缓冲区对象 FBO（Frame Buffer Object）。

移植sqlite3、opencv到rv1126开发板上！
大家好，在历时一个多月的时间，终于把这个音视频实战项目人脸识别源码讲解完成了，现在就先给大家更新一下交叉编译sqlite3和opencv以及人脸识别工程！

技术博客|第16期:个性化视频搜索引擎:排序篇(上)
排序模块决定搜索结果最终以什么样的顺序呈现给用户，是搜索引擎的核心组成部分。它位于搜索体系相对靠后的位置，更容易影响用户对搜索结果的直观感受。

打造车内音频新体验：薄如面板的扬声器、无损音频和空间音频、个性化听音
今天我们将介绍几项车内音频体验的新花样。我们将从 LG 的一款「隐形」扬声器开始说起，极氪汽车、苹果与奔驰、哈曼、Spotify 等厂商的方案将会陆续展开。

如何用ModelScope训练出一个语音降噪模型？
近期，我们在ModelScope上开放的FRCRN语音降噪-16K模型，是基于频率循环 CRN (FRCRN) 新框架开发出来的。该框架是在卷积编-解码架构的基础上，通过进一步增加循环层获得的卷积循环编-解码新型架构，可以在消除噪声的同时，对语音进行更针对性的辨识和保护。

CALM: 基于对比学习的表现力语音合成跨模态说话风格建模
本文设计了一种通过选取多个参考音频对语音合成中的说话风格进行建模的方法，其核心是从文本内容获得合适的文本嵌入表征用于检索参考音频。

论文推介：AccentSpeech—从众包数据中学习口音来构建目标说话人的口音语音合成系统
构建带口音的语音合成系统可以增加语音合成的多样性和趣味性。该论文利用低质量的众包口音数据集KeSpeech，将低质数据中的各种普通话地方口音迁移到标准普通话口音的目标说话人DB1上，实现保留DB1音色带有各种口音的语音合成系统。

空中之耳——无人机自噪声消除
无人机可搭载麦克风阵列，在视觉之外兼具听觉，成为移动的“空中之耳”，且有许多可待进一步发掘的应用潜能，但是无人机麦克风阵列也面临着自噪声污染的问题。

ICIP 2022｜用于端到端视频压缩的深度增量光流编码
这篇文章基于 ELF-VC 模型，对其增量光流编码框架（Incremental Optical Flow Coding）进行了优化，提出了一种 Double Warp 的方案，在运动补偿的预测问题上取得了较好的效果。

视频浅压缩技术简介
视频图像浅压缩技术，依旧采用预测编码、变换编码、统计编码，对视频进行压缩编码，但浅压缩采用视频帧间无差别编码，只进行帧内预测编码。可以在宏观上认为浅压缩技术为“全关键帧编码”，没有预测帧。

H.264 编码中， I 帧、B 帧、P 帧、IDR 帧的区别
在H.264协议里定义了三种帧，完整编码的帧叫 I 帧，参考之前的 I 帧生成的只包含差异部分编码的帧叫 P 帧，还有一种参考前后的帧编码的帧叫 B 帧。

WCNC 2020 | 在交互式视频会话中动态调整 jitter buffer 以降低延迟
在本文中，我们使用我们的数据集的一部分，过滤的16129个实时流会话来分析抖动缓冲区的性能。数据表明，即使网络质量良好，抖动时延在突然增加后下降很慢，这是非常不必要的。

UDS网络层/TP层（ISO 15765-2）的解读
UDS网络层，又称为TP层，其存在的目的是为了解决ISO 11898协议中定义的经典CAN数据链路层与ISO 14229协议中定义的应用层，彼此之间数据长度不统一的问题。

可替代HLS的低延时方案—LL-HLS
LL-HLS的就是为了降低HLS的时延而提出的。它的原理是：LL-HLS是在上述带来时延的三个segment中，第一个封装完成，第二个正在封装，第三个还开始没封装的时候，就把三个的url都写入m3u8文件。

汽车功能安全在车载网络通信架构中的实践
对通信的功能安全需遵循E2E（End to End，端到端）的理念，无论从系统功能安全的角度还是从软件功能安全的角度，接入分布化及计算集中化对车载网络通信提出了很高的要求。

BEV常见的开源算法系列二 | BEV下的多模态融合
在本系列中，我们将介绍截至目前为止发布的优秀BEV算法。我们将该系列分为BEV空间的生成、BEV下的多模态融合算法、BEV下的时序融合算法。本篇将重点介绍BEV下的多模态融合算法。

如何使用ModelScope魔搭开源代码训练一款语音合成模型
从模型体验到开发训练，本文将演示如何通过modelscope魔搭体验达摩院预训练模型，并手把手演示定制一款语音合成模型的训练过程。

音视频杂谈--开源多媒体框架
该文章记录的每个开源库的简介和链接地址，总结的很好，有常用的FFMPEG，WebRTC，VLC，X264、X265等，也有人工智能处理相关的，以及播放器类。

开源流媒体服务之SRS
SRS是一款由国人开发的简单高效的开源实时视频服务器，定位是运营级的互联网直播服务器集群。SRS应用场景广泛，包括全平台直播、WebRTC通话业务、监控和广电上云、直播低延迟和互动、大规模海量直播业务等。

论文分享 | MnTTS: 开源蒙古语语音合成数据集及其基线模型
本文介绍了一个高质量的开源蒙古语语音合成（TTS）数据集，该数据集被命名为MnTTS，由一位22岁的专业蒙古语女播音员所录制的约8小时转录音频及对应文本组成。

ICCV2021 | 风格感知的实时图像增强—StarEnhancer
图像增强是一个主观的过程，其目标随用户的偏好而不同。在本文中，我们提出了一种基于深度学习的图像增强方法，覆盖多个色调风格，仅使用一个单一的模型，称为 StarEnhancer。

在 Python 中使用 OpenCV 进行图像处理
Python 提供了许多用于图像处理的库，在这里，我们将使用 OpenCV 模块。OpenCV是一个用于计算机视觉、机器学习和图像处理的大型开源库。OpenCV 支持多种编程语言，如 Python、C++、Java 等。

智能车图像处理—阳光算法
阳光算法，其实应该叫灰度图像处理算法才对。灰度图像转二值化图像，具体步骤什么的，不再介绍，不懂得可以去自学《数字图像处理》和matlab。

只需3个样本一句话，AI就能定制照片级图像，谷歌在玩一种很新的扩散模型
本文介绍了来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth，能够适应用户特定的图像生成需求。

OpenGL 屏幕成像和渲染原理（收藏）
OpenGL或者shader的编程都是面向过程的，大部分是面向GPU的，这和面向CPU编程的思想是有所不同的。理解了屏幕成像和渲染原理之后对这个问题，或者说对图形学才有了初步的理解。

入门必读系列（八）优化器的选择
本文为计算机视觉入门必读系列的第八篇，介绍了几种优化器，并介绍了如何选择合适的优化器。

3D视觉在人体姿态估计算法的应用
人体姿态估计是当前计算机视觉领域的热点研究问题。对人体骨架关节点进行准确提取并构建人体骨架模型，为进一步的人体姿态识别、实时交互游戏等应用提供了基础。本文主要研究基于深度图像的人体关节定位算法。

实践干货 | 自动化视觉跟踪
这次，我们将使用你的设备来帮助相机自动地跟踪某种颜色的物体，我们想做的一件事情就是检测并跟踪某种颜色的物体。为此，我们必须理解一点OpenCV是如何翻译颜色的。

英伟达肖像动画新模型SPACEx发布，三步就让照片里的人「活」过来！
现在，人工智能越来越多地用于在广泛的领域。其中一项棘手的任务，就是从单个肖像自动生成逼真的动画。这个任务十分复杂，一直是计算机视觉领域的一个悬而未决的问题。而最近，英伟达团队攻克了这一难题，以巧妙的方式，使用语音和2D单个图像，就可以为人像制作逼真的动画了。

Sparse R-CNN：稀疏框架，端到端的目标检测（附源码）
Sparse R-CNN抛弃了anchor boxes或者reference point等dense概念，直接从a sparse set of learnable proposals出发，没有NMS后处理，整个网络异常干净和简洁，可以看做是一个全新的检测范式。

多目标跟踪SOTA，TransTrack改进优化版，模型减小58.73%，复杂性降低78.72%
本文提出了一种轻量化的多目标跟踪算法—MACs，该算法在规模和复杂性方面具有较低的部署成本，同时保持良好的性能跟踪精度。值得各位读者收藏学习。

像背单词一样搞定机器学习关键概念！机器学习通关（7）
“如何高效学习机器学习关键概念？”机器学习网红Chris Albon博士的小抄表可以帮到你。他总结了近300个机器学习概念，并彩笔手绘，制作了这份精美的小抄。

像背单词一样搞定机器学习关键概念！机器学习通关（8）
“如何高效学习机器学习关键概念？”机器学习网红Chris Albon博士的小抄表可以帮到你。他总结了近300个机器学习概念，并彩笔手绘，制作了这份精美的小抄。

23个机器学习最佳入门项目（附源代码）
我们都知道，教科书上所学与实际操作还是有出入的，那关于机器学习有什么好的项目可以实操吗？在本教程中，涵盖面向初学者，中级专家和专家的23种机器学习项目创意，以获取有关该增长技术的真实经验。

一文读懂强化学习
强化学习并不是某一种特定的算法，而是一类算法的统称，本文会着重讲清楚这类算法最常规的设计思路和大致框架，使用非常容易理解的语言带你入门强化学习。

8个常见的机器学习算法的计算复杂度总结
计算的复杂度是一个特定算法在运行时所消耗的计算资源（时间和空间）的度量。本文为你整理了一些常见的机器学习算法的计算复杂度。

21张让你代码能力突飞猛进的速查表（神经网络、线性代数、可视化等）
随着深度学习的蓬勃发展，越来越多的小伙伴们开始使用python作为主打代码，python有着种类繁多的第三方库，这里为大家从网络上收集了一些代码速查表，希望可以帮你在码代码时提速。

最全自动驾驶数据集分享系列七 | 驾驶行为数据集
目前关于自动驾驶数据集你想知道的，应该都在这里了，这是「整数智能」自动驾驶数据集八大系列分享之系列七：驾驶行为数据集，共包括10个数据集。

一文读懂自动驾驶泊车技术
自动泊车系统由多组传感器组成，在采集好图像、距离等相关数据后，数据会传输给处理器，处理器将采集到的数据分析处理，形成自动泊车策略再将其转换成信号，控制系统接受到信号后依据指令控制汽车做出诸如转向、倒车和制动等动作，直至泊车过程完成。

为什么双目自动驾驶系统难以普及？技术详解+典型案例分析
单目视觉是Mobileye（ME）的看家法宝，其实当年它也考虑过双目，最终选择放弃。双目视觉系统估计视差没那么容易，立体匹配是计算机视觉典型的难题，基线宽得到远目标测距准，而基线短得到近目标测距结果好，这里是存在折衷的。

智能汽车感知前端处理难点之图像畸变校正
在整个图像感知中，如果畸变处理不得当会对整个图像质量和后续神经网络识别造成较大的风险。为了满足智能车的实时控制需求，一般需要再实际应用场景中针对摄像头图像畸变提出相应的矫正算法。

自动驾驶遇到无法识别（分类）的物体怎么办？
单目或三目构成的视觉系统是目前智能驾驶的主流，其致命缺陷就是识别与检测是一体的，也就是说要检测目标必须先识别目标，无法识别就等于看不到，车辆不会有任何减速而直接撞上去。

综述-自动驾驶中深度学习方法收到的威胁
本文概述自动驾驶中深度学习安全技术的概念、发展和最新研究。回顾对自动驾驶深度学习攻击技术的发展，并揭示了潜在的风险。最后，提出了构建安全可靠的自动驾驶系统的建议。

IEEE VR 机器学习专题（下）
本文整理 IEEE VR 2022的网络研讨会机器学习专题的第三部分，包含基于虚拟现实的自闭症筛查和分类系统和用 CNN 针对投影仪在线去模糊两个工作。

世界杯带火元宇宙，元宇宙智算中心出线了
场景规模大、场景复杂度高，以及多部门协作、高逼真数字元素制作，实时渲染、仿真和交互等等挑战，以及提供能够支撑元宇宙运转的核心动力。而这些最终都指向了算力，还得是非常强大的那种。于是，一个全新的概念——「元宇宙智算中心」，应运而生了。

医疗界的元宇宙「MeTAI」，现在是共创这样一个元宇宙的时候了
近日，来自美国的团队发现了医疗保健领域元宇宙方法的独特机会。研究人员设想了一个「医疗技术和人工智能」（MeTAI）生态系统，可以促进基于 AI 的医疗实践的开发、原型设计、评估、监管、转化和完善，尤其是医学影像引导诊断和治疗。

一文读懂AR-HUD技术
AR HUD即AR技术与抬头显示的结合体。AR HUD是在HUD光学投影系统中融入AR技术，在我们看到的真实世界中覆盖上数字图像，使得HUD投射出来的信息与真实的驾驶环境融为一体。

课程推荐

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

紧抓多媒体生态趋势，将浏览器、WebAssembly和Rust等热点结合
熟知播放器工作原理，为实现商业化H.264/H.265播放器打下坚实基础
课程包含图文、代码、视频，降低学习门槛
李超精准讲解，及时详细解答

↑识别上图二维码或点击上图立即订阅。

以上是关于音视频技术开发周刊 | 274的主要内容，如果未能解决你的问题，请参考以下文章