音视频技术开发周刊 | 255

Posted 2022-08-03 LiveVideoStack_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了音视频技术开发周刊 | 255相关的知识，希望对你有一定的参考价值。

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

LiveVideoStackCon 2022 上海站 | 2022 音视频技术风向标

想想从去年11月底我们正式启动LiveVideoStackCon 2022 音视频技术大会上海站算起，已经过去8个月了。因此也成就了筹备时间最长的一届音视频技术大会，这次终于要在8月5日-6日上海海神富诺特大酒店召开了。在这不平凡的8个月里，我们从专题设置、环节策划，再到演讲内容打磨做了充分的准备，点击了解本次大会的亮点解析。

⏰ 时间：2022年8月5-6日

📌 地点：上海·海神诺富特大酒店

什么是Per-Title编码？
Per-Title（按主题）编码是指为了节省码率、存储空间以及ABR传输带宽为每部电影调整ABR码率阶梯。接下来，我们将了解Per-Title编码所涉及的编码过程以及它为流媒体提供商带来的优势。

种种迹象表明，Apple将有望支持AV1
Apple已经在其AVFoundation框架中为AV1视频添加了一个新选项，表明这家公司已经几乎准备好在tvOS、iOS、iPadOS和macOS上推出AV1支持。

Android AVDemo（13）：视频渲染丨音视频工程示例
在音视频工程示例这个栏目，我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是 Android 第十三篇：Android 视频渲染 Demo。

光流简介及其在视频编解码中的应用
本文对光流进行简要介绍，并介绍光流在视频编解码标准中的应用。

基于 SPICE 协议的硬编推流整合方案在云游戏中的应用
随着虚拟化技术如模拟器，容器化等技术等发展，在安卓云游戏/云手机场景中，可以在服务宿主侧虚拟出更多更小颗粒度的 Android 实例。其中比较核心的技术是图形虚拟化技术，如何最大限度利用宿主侧的 GPU 资源进行渲染和编码，不考虑软编等利用 CPU 资源进行渲染编码是因为效率带来的延迟问题。

CaTT-KWS—基于级联Transducer-Transformer的多阶段自定义关键词识别框架
关键词检出是语音识别领域的核心任务之一，本文提出了一种新的以神经网络为基础的多阶段自定义关键词识别框架，通过多个校验阶段逐步过滤掉识别过程中的虚警，大幅减少运行过程中的误触发。

音视频学习--运动估计搜索算法（一）
本文开始依次介绍FFMPEG中9种算法，并尝试找到最初的Paper，完成运动估计算法的起始、相关算法发展、优化过程的展现，期望对加油有足够帮助。首先介绍比较经典的算法：全局搜索和三步搜索法。

Science：听音乐真的能止疼，中国科学家揭示背后神经机制
音乐真的能镇痛，并且最新的科学证据已经登上Science。研究来自中科大、安徽医科大学和美国国立卫生研究院等机构，由中国科学家领衔。来看看具体是怎么一回事儿。

主流声纹模型ECAPA-TDNN
声纹识别已有几十年的发展历史，但直到深度学习兴起之后才开始广泛应用，本文主要介绍主流的声纹识别模型Emphasized Channel Attention, Propagation and Aggregation in time delay neural network Based Speaker Verification（ECAPA-TDNN）。

图像信号处理芯片设计原理——16 滤镜
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究，以典型的相机成像系统为基础，涉及的内容包括各类缺陷校正，去马赛克，去噪，3A算法，超分，HDR，风格迁移等主题。本文主要介绍图像滤镜。

基于细节增强的多曝光图像融合
本次介绍一篇发表于2017年TIP的基于细节增强的多曝光图像的多尺度融合方法。首先简要介绍09年Mertens提出的Multi-Scale Exposure Fusion方法，然后介绍这篇文章的内容，最后展示实验结果。

综述 | 图像去噪综合比较研究
图像去噪的目标是从受噪声干扰的退化图像中尽可能恢复原始的真实图像，是图像进行后续处理的关键一步。文章介绍了一篇比较经典的多维图像去噪综述文章，非常适合新入门的同学。

浅谈图像分割调优：一个服饰分割项目的记录
服饰分割的主要场景是对模特进行服饰抠图，要求边缘处理相对平滑，扣取召回和准确率比较高，能够覆盖95%以上的场景case。同时需要考虑模型FLOPs以及结构便宜性，便于后期有压缩的需求。

《2022中国开源发展蓝皮书》正式发布
《2022中国开源发展蓝皮书》由中国开源软件推进联盟牵头，联合85 家企业及行业机构、120 多位开源专家和志愿者共同协作编撰完成，旨在全面展现当前中国开源发展的全景图。

XMem：给1万帧视频做目标分割，显存还不到1.4GB！| 已开源
目前已有的视频对象分割方法非常多，但是它们要么处理速度比较慢，要么对GPU要求高，要么精度不够高。而本文提出的方法，可以说是兼顾了以上三方面。不仅能对长视频快速进行对象分割，画面帧数可达到20FPS，同时在普通GPU上就能完成。

10 款更先进的开源命令行工具
作者整理了 10 款开源命令行工具，这些开源项目不仅实现了和 Linux 命令相同的功能，而且它们与时俱进地加入更多新功能，从而在使用方式、性能和展示效果上更胜一筹，下面就让我们一同走进这些让人相见恨晚、爱不释手的开源命令行工具吧。

一大波开源小抄来袭
“小抄”一词有个学名叫做“速查表”（cheatsheet），是用来快速找到你知识点和答案的表格，下面，就是专为程序员准备的「开源小抄」集合，内容包含了 Python、JavaScript、Linux、Rust 等，由于种类众多便于阅读，我将它们分成了：语言、命令和综合三大类。

FFmpeg命令分析-filter_complex
FFmpeg 命令行有两种 filter 用法，普通滤镜和复杂滤镜，本文重点分析复杂滤镜，以 FFmpeg4.4 源码为准。

https://juejin.cn/post/7088241210782908423

学习机器学习的最佳路径
我们第一天学开车的时候一定不会直接上路，而是要你先学习基本的知识，然后再进行上车模拟。所以我列了一个机器学习入门的知识清单，分别是机器学习的一般流程、十大算法、算法学习的三重境界，以此来开启我们的学习之旅。

总结了 11 种机器学习回归算法
本文将继续修炼回归模型算法，并总结了一些常用的除线性回归模型之外的模型，其中包括一些单模型及集成学习器。

【机器学习】暴力特征工程函数汇总，附代码
近期一些朋友询问我关于如何做特征工程的问题，有没有什么适合初学者的有效操作。最近刚好看到一篇文章汇总了非常多的聚合函数，就摘录在下方，供许多初入竞赛的朋友参考。

北大等提出CT2：无需前置条件的自动着色算法
我们造了一个自动着色的Transformer模型，以color tokens作为辅助，实现了目前最好的着色效果。我们的模型不需要任何前置条件就能生成正确颜色语义和丰富饱和度的图像，所以使用场景更广（例如不受限于检测器可以检测的目标的类别，以及GAN可以生成的图像的类别）。

最全深度学习训练过程可视化工具（附github源码）
本文介绍了多个能将深度学习训练过程进行可视化的工具，帮助大家更好地理解深度学习，非常实用。

CNN的一些可视化方法
对神经网络进行可视化分析不管是在学习上还是实际应用上都有很重要的意义，基于此，本文介绍了3种CNN的可视化方法：可视化中间特征图，可视化卷积核，可视化图像中类激活的热力图。每种方法均附有相关代码详解。

沈向洋、曹颖与马毅提出理解 AI 的两个基本原理：简约性与自一致性
本文聚焦人工智能领域三位知名华人科学家新发表的论文，介绍了一个用判别模型和生成模型组成的完整的闭环系统，达到更高效更稳定的自主学习。

SSL-Lanes:用于自动驾驶中运动预测的自监督学习
运动预测任务传统上是基于运动学约束和具有手工规则的道路地图信息，然而这些方法无法捕捉复杂场景中的长期行为以及与地图结构和其他交通代理的交互。在本论文中，作者提出了一个基于自监督学习的运动预测模型，算法已经开源。

一文聊聊自动驾驶感知系统
自动驾驶汽车想要完成出行安排，离不开感知、决策、控制这三大要素，其中感知作为让汽车“认得路”的重要环节，可以让自动驾驶汽车和驾驶员一样，读懂周围的交通要素。

如何设计智能汽车交互？
复杂的技术系统需要构建一个透明性的简单答案，巧妙地向用户解释系统正在做什么或将要做什么，提供一个“技术解释界面”。交互设计的价值便是在于构建这个人认知和理解世界的“界面”。

基于激光雷达的车道线/路沿检测
车道线和路沿的检测在自动驾驶中起到很关键的作用。最近和做高精地图的朋友沟通，激光雷达在构建高精地图中起到非常关键的作用。

基于高精地图的路径规划探索
目前以Tesla为首的高速领航功能让大家更加明确自动驾驶的前进方向和主机厂的迫切需求。而在高速领航功能中，又分为纯视觉方案和高精地图+视觉+雷达的方案。目前国内车企基本采用后者。本文主要讲述基于高精地图下的路径规划。

将达10亿的AR移动生态，不动声色的大厂之争
无论是当前的手机、平板等主流移动终端，还是未来或成为继承者的VR头显、AR眼镜，都存在着大量的对AR/VR内容的需求，更深一层，则是对AR/VR开发平台、工具的需求。

苹果多项AR新专利曝光；迪拜启动大规模元宇宙战略
近日，美国专利商标局正式公布了苹果公司一系列共54项新授予的专利。在这些专利中，有多项与未来的AR自拍、苹果的Face ID和他们的AR Measure应用有关的专利。

VR社交和多人游戏即将崛起，美国调查称70%家庭用VR来玩游戏
据报告显示，49%的受访者表示自己曾经在家庭中尝试过VR，但只有13%的家庭本身有头显，这说明不少人是和朋友或亲戚共享VR设备。受访者中每10人中有7人表示主要用VR头显玩游戏。

‍

七牛云音视频团队 2021 年在 LiveVideoStackCon 北京站大会发布了音画质量分析系统，得到了不少业内玩家和客户的认可。这一次，七牛云将继续以音画质量为主线，结合自身 QRTC 的产品，给大家带来这一年的一些迭代和创新。

⏰活动时间：2022/8/6 9:30-12:15

🚀参与方式：线下参会（免费）

📌地址：上海海神诺富特大酒店-麦哲伦3厅

🎁福利领取：

成功报名活动，扫码进群即可获得品牌优质内容汇总
参与专场活动有机会抽取千元惊喜大礼

👇🏻点击「阅读原文」立即报名！

以上是关于音视频技术开发周刊 | 255的主要内容，如果未能解决你的问题，请参考以下文章