实时音频编解码之十四 Opus编码-SILK编码-长时预测
Posted shichaog
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了实时音频编解码之十四 Opus编码-SILK编码-长时预测相关的知识,希望对你有一定的参考价值。
本文谢绝任何形式转载,谢谢。
4.1.12 线性预测系数计算
线性预测分为语音和非语音两种情况,该模块的输入是pitch估计模块白化之后的信号,对于语音帧,白化后的信号依然含有较强的pitch特征,因而为了在相同的比特率下获得更高的编码质量需对信号进一步白化,这里的进一步白化的输入并不是zpitch估计模块白化之后的信号,这是为了和解码端的过程一致(解码端过程是激励经过量化的LTP滤波,再经过量化的LPC滤波得到编码信号),所以这里先使用量化的LTP系数白化信号,再使用量化的LPC系数白化信号,这样保持编码端和解码端过程一致以减少量化噪声,LTP滤波是对每个子帧使用滤波器系数经过量化的五阶白化滤波器滤波,经过系数量化的LTP滤波之后的残差信号使用LPC进一步白化,两级白化之后的信号残差信号能量被最小化了,由于LPC源于经过两级向量化的LSF反向计算得到,由于编解码端使用的都是量化版本的LTP和LPC系数,因而编解码两端是同步的,之所以使用量化版本的一个很重要的原因是压缩传输比特率。
对于非语音帧,因为经过预白化后的信号在LTP分析周期内已经没有周期性了,因而没有必要再进行LTP滤波,进而LPC系数通过输入信号而非预白化后的输入信号计算得到。由于LPC矢量量化会引入稳定性问题,因而将LPC的量化编码转为LSF的量化编码,在编码侧和解码侧都使用矢量量化LSF的转换为量化的LPC系数滤波信号。
4.1.12.1 LTP系数计算
LTP系数量化
对于语音帧,LTP预测分析后为每个子帧得到一个五阶的滤波器以及四个权重矩阵,每个子帧的LTP系数使用熵约束向量量化方法进行量化,总共有三个不同码率-失真度的向量码本可以使用,三个码本的向量数分别为10,20和40,三个向量对应的编码比特率分别为3,4和5。因而第一个码本压缩率更高失真也更大,对于d给的定权重矩阵W_ltp和LTP向量b其相对于码本向量cb_i以及码本r_i 的码率失真的度量如下:
RD = u * (b - cb_i)’ * W_ltp * (b - cb_i) + r_i
其中u是失真和码率之间平衡的固定参数,权重矩阵W_ltp影响最优码本的选择,当W_ltp较小时,使用向量为10的码本可以获得更小的平均码率,对于W_ltp较大的情况,使用向量为40的码本通常可以获得更高的编码质量,W_ltp主要取决于输入信号的周期性以及当前子帧信号相对于前一个基频周期信号能量的变动,如果能量的变动是衰减的,则W_ltp将更大,这两者对W_ltp影响都比较小,因而对不同的子帧W_ltp变动较小。为了找到最好的码本,使用三个向量码本中的每一个量化所有子帧LTP向量并生成组合加权每个矢量码本的率失真度量,选择在所有子帧上具有最低组合率失真的向量码本。量化后的LTP向量用于噪声成形量化,并且码本的索引加上四个子帧码本向量的四个索引被传递给区间编码器。
4.1.13 预滤波
在预滤波模块,使用噪声分析模块的谱谷衰减滤波器滤波,然后将滤波之后的信号送入噪声噪声整形量化模块进行量化噪声。
4.1.14噪声整形量化
噪声整形量化独立整形信号和编码噪声谱以在相同的比特率下获得更高的感知质量,预滤波输出信号和噪声分析模块计算的补偿增益相乘,然后和合成整形滤波器的输出相加,再和预测滤波器输出相减以得到残差信号,残差信号乘以来自噪声整形分析模块反向量化的量化增益并用标量量化器量化,标量量化器输出的量化索引标识的是输入金字塔区间编码器的信号,同时标量量化器同样输出量化后的信号,该量化信号和噪声分析模块计算的量化的量化增益相乘以得到激励信号。预测滤波器的输出和激励信号相加以得到量化后的输出信号
y
(
n
)
,量化后的输出信号
y
(
n
)
输入合成整形和预测滤波器。
噪声整形量化模块可以运行于延迟决定模式,在这个模式下,其使用维特比算法跟踪量化器的多重舍入选择,并在32个样本之后选择一个最佳样本,这提高了量化器的比特率/失真性能。
噪声整形,由于DD算法的引入,使得噪声整形变的复杂,尽管Dither的增加和去除是可逆过程,但是输出却不一样。SILK量化后加Dither,量化结果将会影响LTP值,同时也会影响下一个
虽然加Dither和去Dither的运算是相互逆的,但是这里输出结果完全不同,可以详细计算下,运算互逆,但是本身运算结果不互逆。当然这也是Dither的意义。平衡噪声作用。
SILK里面的Dither后量化,量化后的结果会对LTP值state值产生影响,也会对下一个Long term Noise Shaping和Short term Noise Shaping系数产生影响,达到NS的目的。
以上是关于实时音频编解码之十四 Opus编码-SILK编码-长时预测的主要内容,如果未能解决你的问题,请参考以下文章