三星电子推出X-net架构用于语音通话

Posted 2021-10-03 LiveVideoStack_

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了三星电子推出X-net架构用于语音通话相关的知识，希望对你有一定的参考价值。

X-net 影音探索 #003

作者 | Teresa

近日，三星电子推出X-net，这是一种联合学习的Scale-down和Scale-up架构，用于语音编码中的预处理和后处理，作为在带宽受限的语音通话信道上扩展带宽的一种手段。其中，在发送端和接收端分别部署Scale-down和Scale-up，以进行下采样和上采样处理。并对子模块进行单独监督训练，这样即使缺少一个子模块，X-net也能够正常工作。在三星电子发表的X-net论文中（X-net: A Joint Scale Down and Scale Up Method for Voice Call），有结果表明，联合训练的 X-net 在客观和主观指标上，比常见的音频超分辨率方法有明显改进，即使在只有 1k 参数量级的轻量级网络上也是如此。

X-net 架构

上图显示了在语音通话场景中应用 X-net 架构。它包含一个在发送端部署的Scale-down模块，以及一个在接收端部署的Scale-up模块。在麦克风输入的高带宽语音信号后，应用Scale-down模块做向下采样，为语音编码器提供对应的低带宽语音。然后，应用Scale-up模块将语音解码器输出的低带宽语音转换回高带宽语音进行输出。

由于编解码器是一个标准的固定模块，用于传输限定带宽的语音数据。因此，三星电子推出的X-net架构包含了Scale-down、编解码器和Scale-up模块，能够在不改变现有语音通话信道设置的情况下，达到传输高质量的语音的目的。

训练X-net

其特点在于不仅使用时域损失函数或混合时域和频域损失函数，而是应用具有不同目标的两阶段训练计划。其中，在第一阶段使用时域 MSE 损失来获取最小化波形失真。在第二阶段切换到对数频谱幅度 (LSA) 上的 MSE，这可以更好地保证听觉上的相似性。

小结

X-net主要针对的是限定带宽的语音通话信道上的高质量语音传输，并提出了一种时域上的轻量化网络的设计：Scale-down/Scale-up。它的特点是联合优化的神经网络下采样和上采样，分别部署在编码端和解码端，提高现有语音通话系统的语音质量。有实验结果表明，X-net的表现优于常见的音频带宽扩展方法。将X-net应用于EVS (Enhanced Voice Services) 语音通话场景中，即便只有1k的网络参数，POLQA MOS(平均意见评分)有着显著提升。我们也注意到三星电子在论文结语中，表示会进一步研究X-net对于Codec性能的提升，甚至于设计新的Codec。

参考链接：

https://www.isca-speech.org/archive/interspeech_2021/wen21_interspeech.html

http://epub.cnipa.gov.cn/tdcdesc.action?strWhere=CN112885363A&8kt2YOWWXQBD=1631348218704