音视频技术开发周刊 | 260

Posted 2022-09-01 LiveVideoStack_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了音视频技术开发周刊 | 260相关的知识，希望对你有一定的参考价值。

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

LiveVideoStackCon 2022 北京站讲师招募开始啦！

11月4-5日，LiveVideoStackCon 2022 北京站将与大家继续探索音视频技术在不同场景下的融合与发展，在这里不仅可以与业内大佬们进行技术上的心得交流，还可以感受到多媒体生态内的头部公司、顶级玩家对行业当前发展趋势、瓶颈挑战，与对未来规划的深入解读。LiveVideoStackCon是每个人的舞台，如果你在团队、公司中独当一面，在某一领域或技术拥有多年实践，并热衷于技术交流，欢迎申请成为LiveVideoStackCon的讲师。

点击「阅读原文」，即可在网页下方报名，还可查看讲师权益与申请条件。

或提交演讲内容+个人介绍至邮箱：speaker@livevideostack.com，

我们将尽快审核并通知您最终结果。

七牛云QRTC自研传输协议（QRTP）对音画质量的提升
于佳老师为我们讲述QRTN的网络架构是如何提升用户体验度的，以及分析其中的QRTP协议是如何对音画质量进行提升的。

美摄汽车图像及视频处理方案
随着智能汽车的不断发展，消费者对车身娱乐系统的要求也不断加强。虽然车身摄像头数量越来越多，但是依然面临画质不佳、存在畸变等问题，那么如何解决这些问题呢？

端云协同创新优化音视频场景用户体验
LiveVideoStackCon 2022 音视频技术大会上海站邀请到了火山引擎智能互动特效解决方案总监范青老师，为我们分享在字节内部业务线和外部企业服务线里面，视频云产品和视觉特效算法融合的最佳实践以及在业务的落地环节中，字节在这些方面发现的一些创新点以及技术积累。

腾讯自研新一代AV1编解码器
近年来，腾讯云在编解码领域投入了许多，不同于许多厂商基于开源方案做增强，腾讯从2017年就开始自研编解码器包括现在的AV1。

影视级跨平台视频制作技术的落地实践
视杏科技的李志强老师，为我们分享影视级跨平台视频制作技术的落地实践，主要包含3个部分：1. 大背景下的痛点分析及技术解决方案；2. 应用案例效果分享演示；3. 技术挑战和实践方案分享。

对话Severe Tire Damage：世界上第一支在互联网上直播表演的乐队
今天的你肯定不会惊讶于直播这项技术，但是回到上世纪90年代，当在线通信全部都是文本和邮件时，能够在网上传输实时音频和视频就像奇迹一样。你也许会好奇：这个奇迹是在何时，又是如何发生的？其中用到了哪些技术？谁在互联网上进行了第一场直播表演？

HDR 不必太难
这篇演讲介绍并分析了对于视频创作者来说 HDR 可能出现的问题，结合人眼视觉系统以及显示器的内部策略提出了相应的解决措施。

音视频开发之旅（24) 算法系列 - 快速排序
快速排序引入了基准元素的概念，每一轮挑选一个基准元素，让比它大的元素移动到一端，比它小的元素移动到另外一端。然后在不断的递归调用，从而实现快速排序。

OpenGL ES 高级进阶：EGL 及 GL 线程
今天给大家介绍EGL和GL线程，EGL是OpenGL ES开发中很重要的一部分，特别是当想实现一些比较复杂的功能时，就有必要去了解EGL。

音视频基础--Android生成HEIF文件
之前几篇文章介绍了Android平台解析HEIF图像格式的流程，然后小伙伴不淡定了：只是解析难度不大吧，也把生成HEIF文件的流程走一下呀！！！这个还真有，今天我们看看具体实现，完成这个小伙伴这个很好的建议。

使用 Python为你的在线会议创建一个假的摄像头
想象一下。你正在参加在线会议，出于某种原因，你并不想打开摄像头。在 Python 的帮助下，不再强制开启摄像头。将向你展示如何为你的在线会议创建一个假的摄像头。

论文推介：针对多方会议场景下说话人相关语音识别的对比研究
该论文主要对比研究了三种SA-ASR的方法，通过对说话人日志、语音分离和语音识别模块的耦合，在M2MeT竞赛（如下推文）上发布的真实会议场景语料库AliMeeting上进行了相关实验，有效地降低了说话人相关字错误率(SD-CER)。现对该论文进行简要的解读和分享。

房间脉冲响应测量与模拟方法
测量房间脉冲响应有许多种方法，文献中对不同的房间脉冲响应测量方法进行了详细的介绍和对比。本文详细介绍其中最为常用的最大长度序列法（Maximum Length Sequence, MLS），并在实际房间中使用该方法进行房间脉冲响应的测量。

论文推介：跨句注意力机制提升基于Transformer的对话语音识别效果
对话场景是语音识别（ASR）应用中出现频率很高的一种场景，比如智能客服、客服质检等。在对话语音识别（Conversational ASR）中，如何将语音或识别抄本的有用上下文信息引入进来，是一个值得关注的研究工作。

声频（音频）系统简介
声频系统（Audio System）也称为音响系统（Sound System）、音频系统、电声系统。工业界称音频系统比较多，但学术界还是称声频系统更准确，因为涉及到声的产生、传播、接收等过程。

再谈回声消除测评
音频质量的优化是一个复杂的系统工程，回声消除是其中一个老生常谈的话题，一般来说，回声消除的效果受设备本身的声学设计、声学环境、以及软件系统等诸多因素的影响。

Copa: 端到端的互联网拥塞控制算法
本文介绍了 Copa，一种采用三种思想的端到端拥塞控制算法，这是一种实用的基于延迟的 Internet 拥塞控制算法。

HLS直播协议在B站的实践
在音视频直播领域，各种新技术与新标准层出不穷，直播场景也愈发复杂。为了更好的面对未来的挑战，B站在此方面进行了探索，率先在国内推行HLS(fmp4)协议在国内直播领域大规模落地。本期我们主要分享HLS在B站落地方面的工程实践经验。

最后一公里：从直播拉流读懂直播链路
直播是一个庞大而复杂的业务形态，一个优秀的直播系统涉及众多团队的共同协作，有非常完整的直播链路。那么，直播链路中都有哪些角色？这些角色要解决的是哪些问题？要优化某个环节时需要哪些角色的配合？这些角色优化链路的手段有哪些？

Android FFmpeg系列03--视频解码与渲染
本文为FFmpeg系列的第三篇文章，主要内容为利用FFmpeg解码本地mp4文件的视频流并利用OpenGL进行上屏渲染。

Android FFmpeg系列05--音频解码与播放
本篇文章将通过音频基础、AudioTrack、FFmpeg音频解码&重采样三个部分的讲解来完成对Demo中mp4文件内音频流的解码与播放功能。

色彩空间与图像/视频编码
Vimeo 的首席视频工程师 Derek Buitenhuis 将介绍色彩空间与图像/视频编码的渊源，包括当前的主流色彩转换方式，未来有趣的方向，并讨论了使用色彩空间作为编码工具的利与弊。

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

紧抓多媒体生态趋势，将浏览器、WebAssembly和Rust等热点结合
熟知播放器工作原理，为实现商业化H.264/H.265播放器打下坚实基础
课程包含图文、代码、视频，降低学习门槛
李超精准讲解，及时详细解答

↑识别上图二维码或点击上图立即订阅。

使用 OpenCV 进行图像投影变换
在数学中，线性变换是将一个向量空间映射到另一个向量空间的函数，通常由矩阵实现。如果映射保留向量加法和标量乘法，则映射被认为是线性变换。

图像分类相关优质开源数据集汇总（附下载链接）
为了帮助大家更好的学习，本文汇总整理了优质的开源数据集资源，本文为图像分类相关的开源数据集，均附有下载链接。

ECCV2022 | 开源：基于可分离级联查找表的实时图像增强方法
色彩增强是画质增强的重要手段。它根据待处理图像本身的内容以及增强图像所面向的应用场景，对图像中像素的颜色进行调整，增加不同像素之间的颜色对比度，提高显著区域的颜色饱和度等等，从而最终提高图像的视觉效果。

图像分类必备经典模型，一文打尽知多少？（一）
本文将分 3 期进行连载，共介绍 15 个在图像分类任务上曾取得 SOTA 的经典模型。本期介绍：AlexNet、VGG、GoogleNet、ResNet、ResNetXt。

OpenGL 使用 shader 搞定“热成像”效果
已经过去的 2020 是一个不怎么顺遂的一年，出入公共场所都需要体温监测，而人流量密集的商场，一般会采用热成像技术来快速测量体温。那么今天我们就来说说如何让一张普通图片变成具有热成像的效果。

简单粗暴，5行代码，快速实现图像分割
图像分割，作为计算机视觉的基础，是图像理解的重要组成部分，也是图像处理的难点之一。那么，如何优雅且体面的图像分割？5行代码、分分钟实现的库——PixelLib，了解一下。

用于图像处理的多轴多层感知机
本文介绍一篇2022年的CVPR文章：《用于图像处理的多轴多层感知机》，利用多轴的多层感知机对图像进行复原。分为背景介绍、论文采用的方法、结果、总结与参考文献共5个部分。

游戏开发面试题 -- 图形学篇
图形学和3D数学篇，收录了几十道面试真题，也欢迎小伙伴后续提供以便继续更新。

简单易懂的讲解深度学习（入门系列之四）
本文继续聊“神经”，首先聊聊机器学习的三大分支，然后以“中庸之道”来看机器学习的发展方向。

机器学习基础：11 种特征选择策略总结！
太多的特征会增加模型的复杂性和过拟合，而太少的特征会导致模型的拟合不足。将模型优化为足够复杂以使其性能可推广，但又足够简单易于训练、维护和解释是特征选择的主要工作。

吴恩达：机器学习的六个核心算法
最近，吴恩达在其创办的人工智能周讯《The Batch》上更新了一篇博文，总结了机器学习领域多个基础算法的历史溯源。

深度强化学习技术概述
在本文中详细介绍了深度强化学习技术，将强化学习分成三大类（value-based算法、policy-based算法及结合两者的AC算法）来进行介绍。

机器学习算法的随机数据生成
在学习机器学习算法的过程中，我们经常需要数据来验证算法，调试参数。但是找到一组十分合适某种特定算法类型的数据样本却不那么容易。还好numpy, scikit-learn都提供了随机数据生成的功能。

扩散模型家族再添一员，最新 Cold Diffusion 不再依赖高斯噪声
最近，Stability.Ai 公开发布了其文本生成图像模型 Stable Diffusion 的最新版本，从生成图像的效果来看，Stable Diffusion 已经是当前最好的模型之一，而它背后的扩散模型（Diffusion Model）最近也备受关注，显示出要取代 GAN 模型的势头。

‍前排无人，全程40分钟无接管穿越市区！Waymo最新自动驾驶视频火了
Waymo自动驾驶最新视频火了：这一次，不仅主驾无人，还是全程40分钟无接管的那种。路线则是从旧金山的Castro城区一路开到著名的金门大桥，最后抵达里士满。

自动驾驶决策控制及运动规划最详细最接地气综述
本文将对三种决策控制方法：sequential planning、behavior-aware planning、以及end-to-end planning的内容与遇到的问题以及已取得的成果做简要介绍。

理想ONE自动驾驶控制器故障码设置策略梳理
偶然从网上看到了一份理想ONE的ADAS控制器的维修资料，里面有一章节是描述故障码，通过这份资料来分析一下理想ONE的故障码设置方案。

一文聊聊基于深度强化学习的自动驾驶算法
这是 21 年的一篇综述文章，可以算得上是最前沿的自动驾驶技术综述。这几年随着深度表征学习的发展，强化学习领域也得到了加强。本文会对目前最先进的自动驾驶 DRL 算法进行汇总和分类。

自动驾驶的社会交互：一个综述和思考（一）
本文回顾了建模和学习人类驾驶员之间社会交互的各种方法，从优化理论和图模型（graphical models）到社会力理论和行为认知科学。还强调了一些新的方向、关键挑战以及未来研究的开放性问题。

元宇宙大火后，揭秘消费级 AR 眼镜全球首个3 万台销量记录的诞生
元宇宙带火的周边产品，XR 眼镜排名当属前沿。近日，国内知名人机交互厂商 Rokid 对外宣布：目前，Rokid Air 眼镜销量已突破 30,000 台，打破了全球消费类 AR 眼镜的销量记录，排名第一。

小扎满意地换上元宇宙头像，网友：丑哭了
他来了他来了，外星人小扎带着他的元宇宙头像向我们走来了。Meta投入了100亿美元，致力于打造Metaverse。然而小扎最近的元宇宙头像，不幸遭到了网友的群嘲。

VR学习路线|虚拟现实技术学习
元宇宙、VR发展势头正猛，内容研发人员紧缺，那么在前面了解了一定的VR行业后，你是否也想有一天做出来自己的一个小项目呢？那么就跟着我们一起来学习一些相关知识和学习路线吧！

AR眼镜&新能源汽车，风口相遇
元宇宙&新能源汽车，时代风口上的两个产业，正在加速走向融合。目前的 AR 眼镜与智能驾舱的结合，以早期探索合作为主。

阅读推荐

私人相册照片被谷歌AI举报：全网封杀，警方介入，但也喊冤无门
有位旧金山全职奶爸被谷歌全网封杀了，原因是他为了告知医生孩子的病情，用自己的安卓手机，拍下了儿子腹股沟感染的照片。

给我1张图，生成30秒视频！｜DeepMind新作
AI又进阶了？而且是一张图生成连贯30秒视频的那种。近日，DeepMind提出了一种基于概率帧预测的图像建模和视觉任务的通用框架——Transframer。

计算机视觉中的长尾分布问题还值得做吗
让我们再次重新看看，2022年计算机视觉中的长尾分布这个方向是否还值得继续做下去。本文主要介绍我们今年被ECCV 2022接受的论文《Invariant Feature Learning for Generalized Long-Tailed Classification》。目前代码已经在Github上开源。

新书推荐

《Kamailio实战》新书预售
“千呼万唤始出来，犹抱琵琶半遮面。”《Kamailio实战》从去年9月开始写作，历经一年的时间，终于要与大家见面了。本书由杜金房先生与吕佳娉女士联合撰写，机械工业出版社出版。本书从 Kamailio 的历史、基本概念和逻辑讲起，即使没有相关经验的读者也能轻松入⻔。

新一代通用视频编码H.266/VVC：原理、标准与实现
H.266/VVC的出色性能来源于复杂而精妙的编码新技术，相关标准的语法语义理解起来比较困难。作者针对H.265/HEVC标准著有《新一代高效视频编码H.265/HEVC：原理、标准与实现》一书，获得了读者的广泛好评。本书沿袭了前书的基本思路，从原理出发，对H.266/VVC视频编码标准进行分模块解读。在给出H.266/VVC整体编码框架及其中的关键技术之后，针对H.266/VVC的各个编码模块分别进行详尽分析。为方便读者理解，每个编码模块都包含了相应的背景知识、语法语义、实现方式等。此外，本书作者深入参与了H.266/VVC标准的制定，并有多项编码技术被该标准采纳。在撰写本书的过程中，作者根据自身对标准的理解，对重点、难点进行了仔细剖析。

活动推荐

新模式下音视频怎么玩？——海外web3音视频趋势
互联网行业的迅猛发展带动了音视频技术的进步，一些新鲜技术语也随之进入音视频赛道。一股Web3热潮正席卷而来，相比于元宇宙、NFT、虚拟人这些更为火热的概念，Web3到底是什么意思？从概念到落地，海外Web3音视频发展趋势如何？

⏰ 活动时间：2022年8月30日 19:00

👤 讲师：韩轶东（Reddio 创始人&CEO）

以上是关于音视频技术开发周刊 | 260的主要内容，如果未能解决你的问题，请参考以下文章

音视频技术开发周刊 | 204

音视频技术开发周刊 | 207

音视频技术开发周刊 | 215

音视频技术开发周刊 | 277

音视频技术开发周刊 | 252

音视频技术开发周刊 | 283