实时音频编解码之十九 基于AI的语音编码(LPCNet)

Posted shichaog

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了实时音频编解码之十九 基于AI的语音编码(LPCNet)相关的知识,希望对你有一定的参考价值。

本文谢绝任何形式转载,谢谢。
自2012年Opus编码器推出以来经过近10年,2020年的新冠大流行使得实时音视频会议和虚拟增强会议需求进一步增加,Opus是这类场景中非常优秀的音频编码器,但AI技术可以进一步提升音视频效果。

Satin

Satin是微软于2021年2月官宣的一款基于AI的语音编码器,其目标是替代Silk编码器,Silk是Skype使用的语音编码器,Opus中LPC部分也是基于Silk编码器,Satin的特性如下:

从6kbps开始可以支持超带宽语音

从17kbps开始可以支持全带宽语音

更高的比特率可以带来更好的编码质量

即使在高丢包率的情况下音频质量依然很高

更好的冗余算法,在突发丢失情况下提供更好的保护

Satin已经在微软Teams和Skype的双向通话中使用,显然未来是会扩展到多人通话中。Satin的目标是替换掉Silk/Opus编码器。

为了在6kbps码率下达到超带宽,Satin根据对语音产生、建模和心理声学的深入理解来提取和编码信号的稀疏表示,在进一步降低所需比特率时,Satin仅对较低频带进行编码和传输某些参数,在解码侧,Satin使用深度学习网络从接收到的低频带参数以及附加信息估计高频带参数,这种方法虽然使用超低比特率编码超带宽信号,但是计算复杂度大大提高。分析输入语音信号以提取低维表示需要大量计算,在深度神经网络上进行实时推理会增加更多的复杂性。

以上是关于实时音频编解码之十九 基于AI的语音编码(LPCNet)的主要内容,如果未能解决你的问题,请参考以下文章

实时音频编解码之十 CELT编码器

实时音频编解码之十四 Opus编码-SILK编码-长时预测

实时音频编解码之十四 Opus编码-SILK编码-长时预测

实时音频编解码之十一Opus编码

实时音频编解码之十一Opus编码

实时音频编解码之十七 Opus解码 SILK解码