音视频技术开发周刊 | 278

Posted 2023-01-09 LiveVideoStack_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了音视频技术开发周刊 | 278相关的知识，希望对你有一定的参考价值。

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

AI 双眼皮生成是快手 Y-tech 自研的人像美化项目，提出的基于形状和纹理显示分离的生成式算法解决了 domain 间小风格迁移的难题，所生成的双眼皮能够兼顾真实和美感，已经上线“一甜相机"app->美型->眼睛->双眼皮和"快手"app拍摄页面->美化->医美级->双眼皮，欢迎关注和使用。

KALOS.art AI 作品每周精选 001

2022年1~12月语音合成（TTS)和语音识别(ASR)论文月报

论文统计每月更新一次，主要跟踪语音合成和语音识别的发展状况。很多文章都是在会议后才发出，但不影响统计。统计过程难免存在疏漏，因此统计结果仅供参考。

新一代 Kaldi - 移动端语音识别

本文属于演示性质。希望通过四个视频向大家展示我们最近的进展：支持在手机上使用新一代 Kaldi 进行实时的语音识别。

万元级VR设备拆解及BOM成本分析，到底贵在哪？

Quest Pro是Meta 2022年发布的一款定位高端，具备生产力工具属性的VR一体机，备受全球产业关注。

CES2023前瞻：有哪些值得关注的XR企业和新品？

本文为CES2023前瞻，让我们先睹为快，看看CES期间将会展出哪些值得关注的XR新品、行业解决方案。

InstantAvatar：从 60 秒单目视频中学习数字人化身

本论文提出了 InstantAvatar，一种针对单目视频的高效生成数字人的方法，与现有方法相比，InstantAvatar 的收敛速度提高了 130 倍，并且可以在几分钟而不是几小时内完成训练。它实现了可比甚至更好的重建质量和新颖的姿势合成结果。InstantAvatar 可以在短短 10 秒的训练时间内产生可接受的视觉质量。

AVS3 8K超高清音视频编解码“中国标准”

AVS3是我国自主知识产权的，全球首个落地应用的面向8K及5G产业应用的音视频信源编码标准。该领先技术被咪咕视频应用到了卡塔尔世界杯的赛事直播中，这是AVS3标准在移动端直播场景首次规模化应用。

SRS流媒体服务器的联通最佳实践

本文分析了上海联通产互的视频平台技术在应用SRS进行定制化系统落地方面的实践和总结，分析了SRS流媒体服务器支持的关键特性、主要特点、应用方式和发展历程，分析了视频平台流媒体服务中SRS的关键作用，对SRS在未来视频业务中的定位进行了展望。

Monibuca v4.3.5发布

https://m7s.live/guide/v4.html

Android metaRTC6.0 编译指南

metaRTC android版本音视频的采集/编码/解码/opengl渲染/AEC等均在C++中实现，即使低配硬件也可以实现高效的webRTC推拉流和互动。

https://blog.csdn.net/m0_56595685/article/details/128504114

云视频会议系统私有化实践

云视频会议系统支持多服务器动态集群部署，并提供多台高性能服务器，大大提升了会议稳定性、安全性、可用性。视频会议为用户大幅提高沟通效率，提升内部管理水平，已广泛应用在政府、交通、运营商、教育、企业等各个领域。

FreeSWITCH在视频会议中的实践经验

视频会议已成为日常办公不可或缺的一部分，为远程交流的人们提供了许多便利。本次RTSCon 2022会议，由RTS社区和LiveVideoStack音视频技术社区联合出品，很荣幸地邀请到了来自vivo的架构师李莹莹老师，为我们介绍了FreeSWITCH架构、vivo自研的视频会议架构、以及在实践过程中应用到的一些方案等。

AF_XDP在B站CDN节点QUIC网关的应用和落地

为了给B站用户提供更稳定流畅的视频观看体验，同时降低成本，网络协议组团队通过技术选型，排除了DPU方案，决定使用AF_XDP技术来优化QUIC网关的收发包效率，减少CPU负载。

RTMP二十岁生日快乐

本文来自老朋友Fabio Sonnati，他回顾了陪伴其生涯的Flash和RTMP技术。

TMM 2022 | BoB : 结合启发式和强化学习的 RTC 带宽预测

在本文中，我们利用强化学习的进展，提出了一种用于RTC的混合带宽预测器 BoB（Bang on Bandwidth）。在RTC会话开始时，BoB使用一种基于启发式的方法。然后，它切换到基于学习的方法。与ACM MMSys'21关于RTC带宽估计挑战的两个获胜方案相比，BoB准确地预测了可用带宽，并提高了不同网络条件下的带宽利用率。

TCP/IP 40岁：不惑之年的困惑

KonX：跨分辨率的无参考图像质量评价

本文介绍了跨分辨率下的 NRIQA 问题，在预测不同尺寸的真实失真图像的质量方面取得了重大进展。

细粒度视觉质量评价：回顾和思考

LiveVideoStackCon 2022上海站大会我们邀请到了中国科学院大学副教授张新峰老师，为我们详细分享了视觉质量评价的背景与问题以及细粒度视觉质量评价方法的发展与挑战。

IEEE VCIP | B站窄带高清转码系统中的编码方法

B站窄带高清转码系统中的关键算法 —— 基于 2pass 深度学习码率因子预测的恒定画质的分段编码方法。

高效运动建模的全神经网络视频编码方法

针对端到端视频压缩中的运动建模，本文中论文提出了一种高效的运动分解方法，将视频相邻帧之间的运动自适应分解为内在运动信息和扩展运动信息。通过渐进式的运动补偿方式，提升帧间预测的效率。

屏幕内容视频编码的基于哈希的运动估计技术。

本文将介绍适用于屏幕内容视频编码的基于哈希的运动估计技术。

HEIC & AVIF 图片硬件压缩方案详解

一图抵千文，因此很多的应用都会用图片来表现丰富的内容。提起图片格式，大家耳熟能详的有 JPEG，PNG，WEBP 等等，这也是当前互联网上主流的图片格式，然而在过去的十年，随着技术的发展，图片的压缩技术又取得了长足的进步，新的图片格式已经涌现，使用这些传统的图片格式已经不再是最优的选择。

推荐资源

自己动手写 H.264 解码器（一）基础知识和 Nalu

https://www.bilibili.com/video/BV1b3411X7eE/?vd_source=f0ab33d7a845fb475b17a70478dc9146

百度研究院2023年科技趋势预测发布

覆盖大模型生态、数实融合、虚实共生、自动驾驶、机器人、科学计算、量子计算、隐私计算、科技伦理和科技可持续发展等领域。

一名多媒体开发者的年度总结

活动推荐

LiveVideoStackCon 2022北京站一起见证多媒体趋势

时间：2023年3月31日-4月1日

报名：扫描图中二维码或点击【阅读原文】了解更多详细信息，报名参与。

以上是关于音视频技术开发周刊 | 278的主要内容，如果未能解决你的问题，请参考以下文章