音视频技术开发周刊 | 205

Posted 2021-08-27 LiveVideoStack_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了音视频技术开发周刊 | 205相关的知识，希望对你有一定的参考价值。

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

小提示：链接跳转仅支持公众号相关链接

6月10日，火山引擎召开品牌发布会。在发布会上的演讲中，火山引擎总经理谭待提到要把字节跳动最好的技术开放出去，而经过抖音、西瓜等产品的千锤百炼，服务过数亿用户的火山引擎视频云产品就是其中之一。从to C到to B，火山引擎视频云可以延续哪些C端优势？如何利用这些优势为客户提供更好的服务和体验？面对竞争激烈的市场，它又如何突破重围？未来还有哪些值得期待的音视频新场景？

近日，LiveVideoStack来到字节跳动采访了火山引擎视频云产品负责人Keith，他和大家分享了火山引擎视频云的情况，以及对音视频技术未来趋势的看法。

技术解码 | 云渲染中的 WebRTC

云渲染在现实⽣活中，得到越来越多的应⽤。其中，云游戏是云渲染最为经典的落地场景，多家游戏互动直播平台⽬前已经对接腾讯云云游戏 PaaS 平台，异常⽕爆。另外，万科南头古城云渲染项⽬也是腾讯云云渲染团队完成的。在可见的未来，云渲染将会有更多更有想象力的落地场景。和直播场景不同，在云渲染的场景中，用户关注的是⼀个按键发出后，到看到操作的响应，总共需要多少的时间，更关注低时延。我们选择 WebRTC 技术作为我们的低延迟⽅案。

web多线程之webworkers

浏览器的js脚本运行一直都是单线程运行的，所以我们不需要考虑多线程同步加锁这种情况。但是当我们需要做一些比较耗时的计算时候如果还放在这个单线程里面，可以想象页面会卡住。其实浏览器也是支持多线程运行的叫做web workers。通过web workers可以把耗时的计算放在非主线程里面。从而充分发挥电脑的性能。

2021 年第二季度 DDoS 攻击趋势

最近几周见证了大规模勒索软件和勒索 DDoS（分布式拒绝服务）攻击活动，这些攻击活动中断了世界各地关键基础设施的各个方面，包括最大的石油管道系统运营商之一和世界上最大的肉类加工公司之一。本季度早些时候，比利时的 200 多个组织，包括政府和议会网站以及其他服务，也受到了 DDoS 攻击。

https://blog.cloudflare.com/ddos-attack-trends-for-2021-q2/

视频压缩标准简史：从1929到2020

多年以来，人们设计出许多不同的算法来压缩视频。视频压缩虽然听起来是一个很现代的词，但其实它从模拟视频开始，已经有很长的历史了。在本篇文章中，我会向大家一一介绍视频压缩史上的里程碑事件，正是这些事件的发生才有了今天的视频压缩。从过去到现在，各类视频压缩方法由最初的概念最终演化成现今的标准。很多压缩标准今天还在使用，人们也一直在继续开发和完善新的标准。

1KB/s 也能开畅享视频会议？信号不好不再是借口！

在近日ICME2021会议上，上海交大的medialab团队提出一种新的视频压缩编码框架“A Generative Compression Framework For Low Bandwidth Video Conference”，只需要1KB/s码流，就能获得高质量的视频会议，相较于VVC编码标准，节省了3/4的码率。

【线上圆桌整理 - 微软】后疫情时代现代化办公新趋势

本次分享将结合微软在后疫情时代全球的洞察和生产力趋势变化，介绍现代化办公的挑战和机遇，尤其是技术如何更好的赋能而不是“内卷”职场人。内容源自微软（中国）Microsoft Teams 高级产品市场经理段旭东在视频会议下半场圆桌上的分享。

【线上圆桌整理 - 腾讯会议】进化中的视频会议

本次分享将聚焦在进行中的视频会议，针对视频会议新技术做探讨。视频会议不是单纯的编解码和网络传输应用，它背后的数据支撑以及新能力引入都会带来新的可能和机遇。本次演讲邀请到腾讯会议产品部网络技术组许景禧分享腾讯会议最近在网络质量分析方面的工作（本文略过），以及探讨近期热门的光场会议，与大家交流视频会议潜在的进化方向。内容源自腾讯会议产品部高级研究员许景禧在视频会议下半场圆桌上的分享。

作业帮：基于 WeNet + ONNX 的端到端语音识别方案

首先感谢出门问问和西北工业大学联合开源的WeNet端到端语音识别工具。作业帮基于WeNet在非常短的时间内搭起一套完整的语音识别系统，并且基于WeNet的U2模型，在很多场景下都能获得非常不错的效果。我们作业帮语音技术组也借鉴了很多WeNet相关代码和技术，在我们的场景下使用U2模型（以及最新的U2++模型），无论是识别效果或者实时率都得到了可观的提升，目前我们的语音弹幕服务已经上线了WeNet模型。

本文介绍我们作业帮的WeNet + ONNX端到端语音识别推理方案，实验表明，相比LibTorch，ONNX的方案获得20%～30%的速度提升。

技术系列课回顾 | 网易云信线上万人连麦技术大揭秘

本文根据网易云信资深音视频服务端开发工程师陈策在《MCtalk Live#5：网易云信线上万人连麦技术大揭秘》线上直播分享整理。

基于Python的视频剪辑工具

MoviePy（完整文档）是一个用于视频编辑的 Python 库：剪切、串联、标题插入、视频合成（又名非线性编辑）、视频处理和创建自定义效果。有关使用示例，请参阅图库。MoviePy 可以读取和写入所有最常见的音频和视频格式，包括 GIF，并在 Windows/Mac/Linux 上运行，使用 Python 3.6+。

https://github.com/Zulko/moviepy

使用扩散模型生成高保真图像

今天，我们提出了两种相互关联的方法，它们突破了扩散模型的图像合成质量的界限——通过重复细化 (SR3) 的超分辨率和一种称为级联扩散模型 (CDM) 的类条件合成模型。我们得出了通过扩大扩散模型和精心挑选的数据增强技术，可以胜过现有的方法。具体来说，SR3 在人类评估中获得了超过 GAN 的强大图像超分辨率结果。CDM 生成的高保真 ImageNet 样本在 FID 分数和分类准确度分数上均大大超过 BigGAN-deep 和 VQ-VAE2。

https://ai.googleblog.com/2021/07/high-fidelity-image-generation-using.html

给图像特征提取开个“ViP”是什么效果？字节&牛津提出视觉解析器，全面超越HaloNet！

本文作者提出了一个视觉解析器（Visual Parser，ViP），将视觉特征分为part级别和whole级别。通过显示建模part特征和whole特征，从而提升模型语义建模的能力。该工作在三大CV任务上都表现优异，在更少的计算量下，ViP模型的性能依旧可以明显优于ResNe(X)t。

基于压缩结构光场图像进行多信息融合深度估计

本文来自OSA Publishing，演讲者是郑州大学的Xiaomin Liu，题目是“基于压缩结构光场图像进行多信息融合深度估计”。

用OpenCV和深度学习进行年龄识别

通过本文可Get如何使用OpenCV，深度学习和Python执行年龄的自动识别/预测。撸完本教程您将能以相当高的精确度，预测静态图像文件、实时视频中人的年龄。

和空间计算做好友，什么才是AR/VR的未来？

比起当下成熟的智能手机市场，AR和VR仍然处于早期阶段。但当我们对技术了解得越深入，就会发现AR和VR未来具备着极大的潜力，这种潜力有助于开拓更多应用场景，同时反过来对于产品形态优化、产品体验提升都有着至关重要的作用。从获取信息的角度来看，AR和VR是最贴近人类自然习惯的信息获取方式，它能沉浸式的显示图文、视频、甚至一个三维模型，虚拟物体可以融入到现实环境中来，身临其境的氛围和交互逻辑与智能手机完全不同。那么具备如此多优势的AR和VR接下来会如何发展，未来是否又会诞生比AR和VR更重要的技术或应用呢？下面我们就带着大家来探究一下。

数字人越来越“真实”的当下，我们该如何保护自己的数据隐私？

逼真的虚拟化身也引起了人们对“深度伪造”这个问题的关注。目前，涉及合成视频或音频的深度伪造会对人们产生误导。未经授权使用虚拟化身也可能使人们对与它所描述的真实人物的认知产生混淆。

虽然任何虚拟化身，不管是否真实都可能由第三方驱动，但逼真的虚拟化身由于有类似人类的表情和手势，更容易建立信任。更糟糕的是，在未来或许你所认识的人的逼真虚拟化身可能会被用于广告或影响他人意见。

AR Mapping:高效快速的AR建图方案

在本文中，我们介绍了一种特殊场景的AR建图，它由具有6个自由度姿态的RGB图像组成，每个图像有稠密深度图和完整的点云图。这里提出了一个有效的端到端的解决方案来生成和评估AR地图，首先，为了有效地获取数据，提出了一种背包扫描装置，该装置具有统一的校准流程。其次，提出了一个AR建图流程，它接收扫描设备的输入，生成精确的AR地图。最后，我们提出了一种利用高端激光扫描仪的高精度重建结果来评估AR地图精度的方法。据我们所知，这是第一次提出一个端到端的解决方案，以高效和准确地建立AR地图的应用。

自动驾驶争霸赛：三个万亿市场、两个千亿市场和数个百亿市场

自动驾驶商业化的选择就像一次赌注，没有人知道哪个赛道会胜出。

4000 字苹果汽车座舱交互设计猜想

我们都知道，苹果前段时间更新了 iOS 15，将新的交互方式呈现在我们眼前。特斯拉 Model S Plaid 的问世，也向我们展示了特斯拉在汽车交互上的新探索。那么，苹果的车载系统会有哪些特别之处？我们认为，苹果在对汽车系统的定位，将完全不同于我们已知的任何传统汽车厂商和新能源品牌。苹果会强调其工具性，而非智能性。苹果在历代产品的介绍上都会以极其简短的标题来突出传达产品特征，而非冗长的排列各项性能，使产品具有明确的「工具感」。

在自动驾驶系统里，实时「感知」周围物体，是所有重要驾驶决策的最基本前提。感知模块负责实时检测路上的障碍物，比如：周围车辆，行人，交通锥（雪糕筒）等等，目前各个公司研制的高级别（L4）无人车系统，普遍采用多传感器融合的设计，即融合不同的感知源，比如激光雷达（LiDAR）和摄像头（camera），从而实现准确并且高冗余的感知。

活动推荐

DTCC2021中国数据库技术大会150+议题精彩预览！

2021年8月18日~8月20日，由 IT168 旗下 ITPUB社区主办的第十二届中国数据库技术大会(DTCC202 1)，将在北京隆重召开。大会以“数造未来”为主题，设置2大主会场，20+技术专场，邀请了超百位行业专家，为广大数据领域从业人士提供一场年度盛会和交流平台。

本届DTCC2021大会在技术主题方面，从数据库的底层内核代码开发，到数据库的架构设计，再到数据库技术的云平台实践，再到上层的AI与大数据应用，在大会的主题设置中，实现了比较全面的覆盖。针对当前比较热门的数据库技术主题，例如，云原生数据库的开发实践、分布式数据库的应用、图数据库技术的应用、时序数据库，在本次大会中，设置了多个专场，进行集中式分享。为期3天的DTCC大会，150+案例主题，让我们预览一下精彩概要主题及日程安排：https://mp.weixin.qq.com/s/nNdZMRUjpvesPpuxNrLV4Q

插图源自Pexels

以上是关于音视频技术开发周刊 | 205的主要内容，如果未能解决你的问题，请参考以下文章