使用 Android 的 AudioTrack 来组合声音样本的字节会产生噪音

Posted

技术标签:

【中文标题】使用 Android 的 AudioTrack 来组合声音样本的字节会产生噪音【英文标题】:using Android's AudioTrack to combine bytes of sound samples produces noise 【发布时间】:2012-06-15 14:06:06 【问题描述】:

我正在构建一个相当简单的 android 应用程序(sdk 修订版 14:ICS),它允许用户一次选择两个音频剪辑(都是 RIFF/WAV 格式、小端序、签名 PCM-16 位编码)和以各种方式组合它们以创造新的声音。我用于这种组合的最基本方法如下:

//...sound samples are read in to memory as raw byte arrays elsewhere
//...offset is currently set to 45 so as to skip the 44 byte header of basic
//RIFF/WAV files
...
//Actual combination method
public byte[] makeChimeraAll(int offset)
    for(int i=offset;i<bigData.length;i++)
        if(i < littleData.length)
            bigData[i] = (byte) (bigData[i] + littleData[i]);
        
        else
            //leave bigData alone
        
     
    return bigData;

返回的字节数组可以通过 AudioTrack 类播放:

....
hMain.setBigData(hMain.getAudioTransmutation().getBigData()); //set the shared bigData
// to the bigData in AudioTransmutation object
hMain.getAudioProc().playWavFromByteArray(hMain.getBigData(), 22050 + (22050*
(freqSeekSB.getProgress()/100)), 1024); //a SeekBar allows the user to adjust the freq
//ranging from 22050 hz to 44100 hz
....
public void playWavFromByteArray(byte[] audio,int sampleRate, int bufferSize)
    int minBufferSize = AudioTrack.getMinBufferSize(sampleRate, 
            AudioFormat.CHANNEL_CONFIGURATION_MONO, AudioFormat.ENCODING_PCM_16BIT);
        AudioTrack at = new AudioTrack(AudioManager.STREAM_MUSIC, sampleRate, 
            AudioFormat.CHANNEL_CONFIGURATION_MONO, AudioFormat.ENCODING_PCM_16BIT,
            minBufferSize, AudioTrack.MODE_STREAM);

        int i = 0;

        at.play();
        at.write(audio, 0, audio.length);     
        at.stop();
        at.release();

       for(i=0;i<audio.length;i++)
           Log.d("me","the byte value at audio index " + i + " is " + audio[i]);
       


使用上面的代码组合和播放的结果接近我想要的(在混合后的声音中仍然可以辨别两个样本),但也有很多裂纹、爆裂声和其他噪音。

那么,三个问题:首先,我是否正确使用了 AudioTrack?其次,AudioTrack 配置中的字节序在哪里考虑?声音本身播放得很好,听起来几乎就像我在组合时所期望的那样,所以 RIFF/WAV 格式的小端性质似乎在某个地方传达,但我不确定在哪里。最后,对于有符号的 16 位 PCM 编码,我应该期望看到的字节值范围是多少?我希望从上面的 Log.d(...) 调用中看到 logcat 中的值范围从 -32768 到 32767,但结果往往在 -100 到 100 的范围内(除此之外还有一些异常值)。超过 16 位范围的组合字节值是否可以解释噪声?

谢谢, CCJ

更新:非常感谢 Bjorne Roche 和 William the Coderer!我现在将音频数据读入 short[] 结构,DataInputStream 的字节序是使用 William 的 EndianInputStream (http://***.com/questions/8028094/java-datainputstream-replacement-for-endianness) 和组合方式改成这样:

//Audio Chimera methods!
public short[] makeChimeraAll(int offset)
    //bigData and littleData are each short arrays, populated elsewhere
    int intBucket = 0;
    for(int i=offset;i<bigData.length;i++)
        if(i < littleData.length)
            intBucket = bigData[i] + littleData[i];
            if(intBucket > SIGNED_SHORT_MAX)
                intBucket = SIGNED_SHORT_MAX;
            
            else if (intBucket < SIGNED_SHORT_MIN)
                intBucket = SIGNED_SHORT_MIN;
            
            bigData[i] = (short) intBucket;
        
        else
            //leave bigData alone
        
     
    return bigData;

经过这些改进的混合音频输出质量非常棒!

【问题讨论】:

【参考方案1】:

我对android音频不熟悉,所以我不能回答你所有的问题,但我可以告诉你根本问题是什么:逐字节添加音频数据是行不通的。由于它有点工作,并且通过查看您的代码以及它最常见的事实,我将假设您有 16 位 PCM 数据。然而,在任何地方,您都在处理字节。字节不适合处理音频(除非音频恰好是 8 位)

字节大约为 +/- 128。您说“我希望从上面的 Log.d(...) 调用中看到 logcat 中的值范围从 -32768 到 32767,但结果往往在-100 到 100 的范围(除此之外还有一些异常值)”好吧,当您从字节数组中打印值时,您怎么可能进入该范围? 16 位有符号数据的正确数据类型是短的,而不是字节。如果您打印的是短值,您会看到预期的范围。

您必须将字节转换为短裤并将短裤相加。这将处理您听到的大部分杂项噪音。但是,既然您正在阅读文件,为什么还要麻烦转换?为什么不使用类似这样的东西将其从文件中读取出来 http://docs.oracle.com/javase/1.4.2/docs/api/java/io/DataInputStream.html#readShort()

下一个问题是您必须处理超出范围的值,而不是让它们“环绕”。最简单的解决方案是简单地将求和作为整数,“剪辑”到短范围,然后存储剪辑的输出。这将摆脱您的点击和弹出。

在伪代码中,整个过程如下所示:

file1 = Open file 1
file2 = Open file 2
output = Open output for writing

numSampleFrames1 = file1.readHeader()
numSampleFrames2 = file2.readHeader()
numSampleFrames = min( numSampleFrames1, numSampleFrames2 )
output.createHeader( numSampleFrames )

for( int i=0; i<numSampleFrames * channels; ++i ) 
    //read data from file 1
    int a = file1.readShort();
    //read data from file 2, and add it to data we read from file 1
    a += file2.readShort();
    //clip into range
    if( a > Short.MAX_VALUE )
       a = Short.MAX_VALUE;
    if( a < Short.MIN_VALUE )
       a = Short.MIN_VALUE;
    //write it to the output
    output.writeShort( (Short) a );

您会从“剪辑”步骤中得到一点失真,但没有简单的方法可以解决这个问题,而且剪辑比环绕要好得多。 (也就是说,除非你的轨道非常“热”,并且在低频中很重,否则失真不应该太明显。如果这是一个问题,你可以做其他事情:例如将 a 乘以 0.5 并跳过削波,但你的输出会安静得多,这在手机上可能不是你想要的)。

【讨论】:

哎呀...感谢您指出需要短数组而不是字节数组;它实际上是 16 位 PCM,所以我不知道为什么我认为逐字节存储和处理会起作用。也许是因为我真的无法很好地解释脉冲编码调制在内部是如何工作的……你有什么建议的参考资料来学习数字音频编码/处理的低级细节吗? 另外值得注意的是,由于我的 RIFF/WAV 音频文件是使用 little-endian 字节顺序编码的,我需要使用修改后的 DataInputStream 版本来正确读取短值(股票 java 版本假定大端)。幸运的是,我在这里找到了完成此任务所需的按位运算的一个很好的实现:***.com/questions/8028094/… 是的,您还需要处理字节序。您可能会考虑为 RandomAccessFIle 使用类似的包装器。作为参考,您可以从这里开始:blog.bjornroche.com/2011/11/… 还有一本书名为 Digital audio with java,它现在已经过时并且有一些不准确之处,但它有工作代码,这在很多地方都找不到。我的第一个链接中有更多参考资料。

以上是关于使用 Android 的 AudioTrack 来组合声音样本的字节会产生噪音的主要内容,如果未能解决你的问题,请参考以下文章

使用带有 Android AudioTrack 的缓冲区

Android音频系统AudioTrack使用方法详解

Android使用AudioTrack发送红外信号

Android使用AudioTrack播放WAV音频文件

调节 Android AudioTrack 播放速度

Android 音频开发——AudioTrack播放