混合两个音频缓冲区时的点击/失真

Posted

技术标签:

【中文标题】混合两个音频缓冲区时的点击/失真【英文标题】:Clicking/distortion when mixing two audio buffers 【发布时间】:2016-08-30 15:33:49 【问题描述】:

我正在开发一个需要同时发出声音的安卓音频应用。

我正在尝试组合两个声音缓冲区,并且在大振幅时出现失真。 这就是我正在做的事情:

for(int i=0;i<data2.length;i+=2)
            

                short buf1a = data[i+1];
                short buf2a = data[i];
                buf1a = (short)((buf1a & 0xff) << 8);
                buf2a = (short) (buf2a & 0xff);
                short buf1b = data2[i+1];
                short buf2b = data2[i];
                buf1b = (short) ((buf1b & 0xff) << 8);
                buf2b = (short) (buf2b & 0xff);

                short buf1c = (short) (buf1a + buf1b);
                short buf2c = (short) (buf2a + buf2b);

                short res = (short) (buf1c + buf2c);
        int res2 = res/2;
        res = (short)res2;
                data3[i]=(byte)res;
                data3[i+1]=(byte)(res>>8);

            

缓冲区使用:

   AudioTrack at = new AudioTrack(STREAM_MUSIC,44100,CHANNEL_OUT_MONO,ENCODING_PCM_16BIT,dataSize,MODE_STATIC);
            at.write(data3,0,data3.length);
            int frames = data3.length/2; //2 bytes per frame.
            Log.d(TAG,"this is data length: "+data3.length);
            Log.d(TAG,"this is assumed frame number:"+frames);
            at.setLoopPoints(0,frames,3);
            at.play();

我几乎完全按照此处概述的程序进行操作:Java: Mixing two WAV files without introducing noise。

缓冲区 data 和 data2 包含我要混合的 wav 文件中的数据。使用 AudioTrack 自己播放它们时,它们听起来不错。此外,除了“高振幅的咔嗒声”之外,混音听起来还不错。

我认为问题在于对于最大幅度而言,短值变得太大,但我不知道为什么,因为我要除以 2。对任何想法都感到非常高兴。

更新:我将混音输出到 wav 并在 Audacity 中查看。 下面的顶部波形是我的点击混合。底部波形是当 Audacity 混合两个 wav 并且没有咔嗒声时。当波形接触图表的“屋顶”/“地板”时,我的混合中会出现咔嗒声。 我的混音似乎在这些地方有一个更广泛的高峰。仍然没有解决这个问题。 更新 2: 这就是问题区域近距离的样子。看起来在 Audacity 版本中它会降低到最高/最低值(地板/屋顶),但在我的版本中,它似乎跳到另一边并在那里“完成”它的曲线。

【问题讨论】:

【参考方案1】:

我通过检查大量数字是否突然改变符号来设法摆脱剪辑。下面在 for 循环末尾添加的代码似乎可以完成这项工作,并给出类似于上述问题中大胆图的结果。

        if(res>10000) //Avoid 'normal' cases where amplitude shifts from f.ex. 4 to -2, which we want to keep.
        
            if((res*resPrevious)<0) //If the sign has changed suddenly for a large number, use the previous number.
            
                Log.d(TAG,"res:"+res+"");
                res = resPrevious;
            
        
        if(res<-10000)
        
            if((res*resPrevious)<0) //If the sign has changed suddenly for a large number, use the previous number.
            
                res = resPrevious;
            
        
        resPrevious=res;
        data3[i] = (byte) res;
        data3[i + 1] = (byte) (res >> 8);

【讨论】:

【参考方案2】:

您的代码启发了我,最后我遇到了同样的问题。您将 16 字节短 buf1a,buf1b,buf2a,buf2b 值逐个添加,然后将结果转换为 16 字节短 buf1cbuf2c。当加法的结果小于-32,768 或大于32,767 a loss conversation occours 因为它超过了short 数据类型容量...

Oracle 文档的摘录:

缩小基元转换可能会丢失有关数值整体大小的信息,也可能会丢失精度和范围。

short buf1c = (short) (buf1a + buf1b);
short buf2c = (short) (buf2a + buf2b);

我的简单修改:)。这完美地工作,没有任何失真:

int buf1c = (buf1a + buf1b)/2;   
int buf2c = (buf2a + buf2b)/2;

【讨论】:

谢谢!是的,该解决方案要好得多 - 我现在在代码中更改为您的解决方案并且效果很好。 :)

以上是关于混合两个音频缓冲区时的点击/失真的主要内容,如果未能解决你的问题,请参考以下文章

使用 OpenGL 混合音频

在 iOS 上使用音频单元混合多个信号

在moviepy中组合音频剪辑时的音频帧重复

简单的 AudioQueue 正弦波——为啥会失真?

将音频缓冲区从 44100 重新采样到 16000

WaveOutWrite 回调创建断断续续的音频