Android音视频系列（七）：PCM音频单声道与双声道的相互转换

Posted 2023-04-18

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Android音视频系列（七）：PCM音频单声道与双声道的相互转换相关的知识，希望对你有一定的参考价值。

参考技术A 上一篇我们已经学习了PCM音频的保存格式，这一篇我们通过掌握的知识，完成PCM音频的单声道和双声道的互相转换。

首先我们把上一篇的最核心部分贴出来：

我们首先完成单声道转双声道的操作。

单声道转双声道的基本原理：

首先我录制了一个音频保存到ArrayList中：

录制的是16位的数据，所以我们每一个采样的数据会占据两位，所以在拷贝的过程中，我们也要每两位拷贝一次：

单声道转声道的操作就完成了。

双声道转单声道的原理：

我们可以按照单声道双声道的做法，每四位取前两位或后两位的数据即可。但是这里我们换一种做法。

这里我们使用了ByteBuffer帮助我们把Byte转成Short。其中有一个很重要的坑，就是设置Byte转Short的规则：

所以我们一定要确保高低位的顺序，否则得到的Short一定是错的，经过测试，录制的音频是低位在前，所以我们修改ByteBuffer默认的高位在前的配置：

相同的原理，我们需要Byte转Int都可以借助对应的Buffer进行读取，非常的方便。

基本流程和第一种方法一样，如果是你用的Java，你还可以通过位运算进行Short和Byte的转换，但是kotlin的对应的运算符却无法正确转换，具体原因还不清楚，这也是为什么我使用了Buffer进行转换的原因。

只要我们掌握了PCM的保存格式，单声道和双声道的互相转换还是非常轻松的，下一篇我们来了解一下新的音频格式：WAV。

多媒体基础知识之PCM数据

1.什么是PCM音频数据

PCM(Pulse Code Modulation)也被称为脉冲编码调制。PCM音频数据是未经压缩的音频采样数据裸流，它是由模拟信号经过采样、量化、编码转换成的标准的数字音频数据。

2.PCM音频数据是如何存储的

如果是单声道的音频文件，采样数据按时间的先后顺序依次存入（有的时候也会采用LRLRLR方式存储，只是另一个声道的数据为0），如果是双声道的话就按照LRLRLR的方式存储，存储的时候还和机器的大小端有关。大端模式如下图所示：

3.PCM音频数据中常用的专业术语

一般我们描述PCM音频数据的参数的时候有如下描述方式

44100HZ 16bit stereo: 每秒钟有 44100 次采样, 采样数据用 16 位(2字节)记录, 双声道(立体声);
22050HZ 8bit  mono: 每秒钟有 22050 次采样, 采样数据用 8 位(1字节)记录, 单声道;

44100Hz指的是采样率，它的意思是每秒取样44100次。采样率越大，存储数字音频所占的空间就越大。

16bit指的是采样精度，意思是原始模拟信号被采样后，每一个采样点在计算机中用16位（两个字节）来表示。采样精度越高越能精细地表示模拟信号的差异。

一般来说PCM数据中的波形幅值越大，代表音量越大。

4.PCM音频数据的处理

4.1.分离PCM音频数据左右声道的数据

因为PCM音频数据是按照LRLRLR的方式来存储左右声道的音频数据的，所以我们可以通过将它们交叉的读出来的方式来分离左右声道的数据

int simplest_pcm16le_split(char *url){
    FILE *fp=fopen(url,"rb+");
    FILE *fp1=fopen("output_l.pcm","wb+");
    FILE *fp2=fopen("output_r.pcm","wb+");
    unsigned char *sample=(unsigned char *)malloc(4);
    while(!feof(fp)){
        fread(sample,1,4,fp);
        //L
        fwrite(sample,1,2,fp1);
        //R
        fwrite(sample+2,1,2,fp2);
    }
    free(sample);
    fclose(fp);
    fclose(fp1);
    fclose(fp2);
    return 0;
}

4.2.降低某个声道的音量

因为对于PCM音频数据而言，它的幅值（即该采样点采样值的大小）代表音量的大小，所以我们可以通过减小某个声道的数据的值来实现降低某个声道的音量

int simplest_pcm16le_halfvolumeleft(char *url){
    FILE *fp=fopen(url,"rb+");
    FILE *fp1=fopen("output_halfleft.pcm","wb+");
    int cnt=0;
    unsigned char *sample=(unsigned char *)malloc(4);
    while(!feof(fp)){
        short *samplenum=NULL;
        fread(sample,1,4,fp);
        samplenum=(short *)sample;
        *samplenum=*samplenum/2;
        //L
        fwrite(sample,1,2,fp1);
        //R
        fwrite(sample+2,1,2,fp1);
        cnt++;
    }
    printf("Sample Cnt:%d\\n",cnt);
    free(sample);
    fclose(fp);
    fclose(fp1);
    return 0;
}

4.3.将PCM音频数据转换成WAV格式

WAV为微软公司（Microsoft)开发的一种声音文件格式，它符合RIFF(Resource Interchange File Format)文件规范，用于保存Windows平台的音频信息资源，被Windows平台及其应用程序所广泛支持。WAVE文件通常只是一个具有单个“WAVE”块的RIFF文件，该块由两个子块（”fmt”子数据块和”data”子数据块），它的格式如下图所示

该格式的实质就是在PCM文件的前面加了一个文件头，每个字段的的含义为

typedef struct{
       char          ChunkID[4];//内容为"RIFF"
       unsigned long ChunkSize;//存储文件的字节数（不包含ChunkID和ChunkSize这8个字节）
       char          Format[4];//内容为"WAVE"
   }WAVE_HEADER;
   typedef struct{
        char          Subchunk1ID[4];//内容为"fmt"
        unsigned long  Subchunk1Size;//存储该子块的字节数（不含前面的Subchunk1ID和Subchunk1Size这8个字节）
        unsigned short AudioFormat;//存储音频文件的编码格式，例如若为PCM则其存储值为1，若为其他非PCM格式的则有一定的压缩。
        unsigned short NumChannels;//通道数，单通道(Mono)值为1，双通道(Stereo)值为2，等等
        unsigned long  SampleRate;//采样率，如8k，44.1k等
        unsigned long  ByteRate;//每秒存储的bit数，其值=SampleRate * NumChannels * BitsPerSample/8
        unsigned short BlockAlign;//块对齐大小，其值=NumChannels * BitsPerSample/8
        unsigned short BitsPerSample;//每个采样点的bit数，一般为8,16,32等。
   }WAVE_FMT;
   typedef struct{
        char          Subchunk2ID[4];//内容为“data”
        unsigned long Subchunk2Size;//内容为接下来的正式的数据部分的字节数，其值=NumSamples * NumChannels * BitsPerSample/8
   }WAVE_DATA;

比如下面的例子

这里是一个WAVE文件的开头72字节，字节显示为十六进制数字：
52 49 46 46 24 08 00 00 57 41 56 45 66 6d 74 20 10 00 00 00 01 00 02 00
22 56 00 00 88 58 01 00 04 00 10 00 64 61 74 61 00 08 00 00 00 00 00 00
24 17 1e f3 3c 13 3c 14 16 f9 18 f9 34 e7 23 a6 3c f2 24 f2 11 ce 1a 0d
字段解析：

代码实现为

int simplest_pcm16le_to_wave(const char *pcmpath,int channels,int sample_rate,const char *wavepath)
{
    typedef struct WAVE_HEADER{  
        char         fccID[4];        
        unsigned   long    dwSize;            
        char         fccType[4];    
    }WAVE_HEADER;  
    typedef struct WAVE_FMT{  
        char         fccID[4];        
        unsigned   long       dwSize;            
        unsigned   short     wFormatTag;    
        unsigned   short     wChannels;  
        unsigned   long       dwSamplesPerSec;  
        unsigned   long       dwAvgBytesPerSec;  
        unsigned   short     wBlockAlign;  
        unsigned   short     uiBitsPerSample;  
    }WAVE_FMT;  
    typedef struct WAVE_DATA{  
        char       fccID[4];          
        unsigned long dwSize;              
    }WAVE_DATA;  
    if(channels==0||sample_rate==0){
    channels = 2;
    sample_rate = 44100;
    }
    int bits = 16;
    WAVE_HEADER   pcmHEADER;  
    WAVE_FMT   pcmFMT;  
    WAVE_DATA   pcmDATA;  
 
    unsigned   short   m_pcmData;
    FILE   *fp,*fpout;  
    fp=fopen(pcmpath, "rb");
    if(fp == NULL) {  
        printf("open pcm file error\\n");
        return -1;  
    }
    fpout=fopen(wavepath,   "wb+");
    if(fpout == NULL) {    
        printf("create wav file error\\n");  
        return -1; 
    }        
    //WAVE_HEADER
    memcpy(pcmHEADER.fccID,"RIFF",strlen("RIFF"));                    
    memcpy(pcmHEADER.fccType,"WAVE",strlen("WAVE"));  
    fseek(fpout,sizeof(WAVE_HEADER),1); 
    //WAVE_FMT
    pcmFMT.dwSamplesPerSec=sample_rate;  
    pcmFMT.dwAvgBytesPerSec=pcmFMT.dwSamplesPerSec*sizeof(m_pcmData);  
    pcmFMT.uiBitsPerSample=bits;
    memcpy(pcmFMT.fccID,"fmt ",strlen("fmt "));  
    pcmFMT.dwSize=16;  
    pcmFMT.wBlockAlign=2;  
    pcmFMT.wChannels=channels;  
    pcmFMT.wFormatTag=1;  
 
    fwrite(&pcmFMT,sizeof(WAVE_FMT),1,fpout); 
    //WAVE_DATA;
    memcpy(pcmDATA.fccID,"data",strlen("data"));  
    pcmDATA.dwSize=0;
    fseek(fpout,sizeof(WAVE_DATA),SEEK_CUR);
    fread(&m_pcmData,sizeof(unsigned short),1,fp);
    while(!feof(fp)){  
        pcmDATA.dwSize+=2;
        fwrite(&m_pcmData,sizeof(unsigned short),1,fpout);
        fread(&m_pcmData,sizeof(unsigned short),1,fp);
    }  
    pcmHEADER.dwSize=44+pcmDATA.dwSize;
    rewind(fpout);
    fwrite(&pcmHEADER,sizeof(WAVE_HEADER),1,fpout);
    fseek(fpout,sizeof(WAVE_FMT),SEEK_CUR);
    fwrite(&pcmDATA,sizeof(WAVE_DATA),1,fpout);
    
    fclose(fp);
    fclose(fpout);
    return 0;
}

参考文章：

http://blog.csdn.net/leixiaohua1020/article/details/50534316

http://blog.csdn.net/u010011236/article/details/53026127

以上是关于Android音视频系列（七）：PCM音频单声道与双声道的相互转换的主要内容，如果未能解决你的问题，请参考以下文章

视音频数据处理入门：PCM音频采样数据处理

PCM编码格式

Asterisk播放mp4（1）——音频和PCM编码

多媒体基础知识之PCM数据

FFPlay播放pcm和yuv帧数据