音视频技术开发周刊 | 278
Posted LiveVideoStack_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了音视频技术开发周刊 | 278相关的知识,希望对你有一定的参考价值。
每周一期,纵览音视频技术领域的干货。
新闻投稿:contribute@livevideostack.com。
2022年1~12月语音合成(TTS)和语音识别(ASR)论文月报
论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况。很多文章都是在会议后才发出,但不影响统计。统计过程难免存在疏漏,因此统计结果仅供参考。
本文属于演示性质。希望通过四个视频向大家展示我们最近的进展:支持在手机上使用新一代 Kaldi 进行实时的语音识别。
Quest Pro是Meta 2022年发布的一款定位高端,具备生产力工具属性的VR一体机,备受全球产业关注。
本文为CES2023前瞻,让我们先睹为快,看看CES期间将会展出哪些值得关注的XR新品、行业解决方案。
InstantAvatar:从 60 秒单目视频中学习数字人化身
AVS3是我国自主知识产权的,全球首个落地应用的面向8K及5G产业应用的音视频信源编码标准。该领先技术被咪咕视频应用到了卡塔尔世界杯的赛事直播中,这是AVS3标准在移动端直播场景首次规模化应用。
https://m7s.live/guide/v4.html
Android metaRTC6.0 编译指南
metaRTC android版本音视频的采集/编码/解码/opengl渲染/AEC等均在C++中实现,即使低配硬件也可以实现高效的webRTC推拉流和互动。
https://blog.csdn.net/m0_56595685/article/details/128504114
视频会议已成为日常办公不可或缺的一部分,为远程交流的人们提供了许多便利。本次RTSCon 2022会议,由RTS社区和LiveVideoStack音视频技术社区联合出品,很荣幸地邀请到了来自vivo的架构师李莹莹老师,为我们介绍了FreeSWITCH架构、vivo自研的视频会议架构、以及在实践过程中应用到的一些方案等。
为了给B站用户提供更稳定流畅的视频观看体验,同时降低成本,网络协议组团队通过技术选型,排除了DPU方案,决定使用AF_XDP技术来优化QUIC网关的收发包效率,减少CPU负载。
本文来自老朋友Fabio Sonnati,他回顾了陪伴其生涯的Flash和RTMP技术。
TMM 2022 | BoB : 结合启发式和强化学习的 RTC 带宽预测
本文介绍了跨分辨率下的 NRIQA 问题,在预测不同尺寸的真实失真图像的质量方面取得了重大进展。
LiveVideoStackCon 2022上海站大会我们邀请到了中国科学院大学副教授 张新峰老师,为我们详细分享了视觉质量评价的背景与问题以及细粒度视觉质量评价方法的发展与挑战。
B站窄带高清转码系统中的关键算法 —— 基于 2pass 深度学习码率因子预测的恒定画质的分段编码方法。
针对端到端视频压缩中的运动建模,本文中论文提出了一种高效的运动分解方法,将视频相邻帧之间的运动自适应分解为内在运动信息和扩展运动信息。通过渐进式的运动补偿方式,提升帧间预测的效率。
推荐资源
自己动手写 H.264 解码器(一)基础知识和 Nalu
https://www.bilibili.com/video/BV1b3411X7eE/?vd_source=f0ab33d7a845fb475b17a70478dc9146
覆盖大模型生态、数实融合、虚实共生、自动驾驶、机器人、科学计算、量子计算、隐私计算、科技伦理和科技可持续发展等领域。
活动推荐
LiveVideoStackCon 2022北京站 一起见证多媒体趋势
时间:2023年3月31日-4月1日
报名:扫描图中二维码或点击【阅读原文】了解更多详细信息,报名参与。
以上是关于音视频技术开发周刊 | 278的主要内容,如果未能解决你的问题,请参考以下文章