音频基础知识 - PCM 浅析
Posted 睡不够“
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了音频基础知识 - PCM 浅析相关的知识,希望对你有一定的参考价值。
一 音频基础知识
声音的本质是空气压力差造成的空气振动,振动产生的声波可以在介质中快速传播,当声波到达接收端时(比如:人耳、话筒),引起相应的振动,最终被听到。
声音有两个基本属性:频率与振幅。声音的振幅就是音量,频率的高低就是音调,频率的单位是赫兹(Hz)。
当声波传递到话筒时,话筒里的碳膜会随着声音一起振动,而碳膜下面是一个电极,碳膜振动时会触碰电极,接触时间的长短跟振动幅度有关(即:声音响度),这样就完成了声音信号到电压信号的转换。后面经过电路放大后,就得到了模拟音频信号。
模拟音频:用连续的电流或电压表示的音频信号,在时间和振幅上是连续。过去记录的声音都是模拟音频,比如:机械录音(以留声机、机械唱片为代表)、磁性录音(以磁带录音为代表)等模拟录音方式。
计算机不能直接处理连续的模拟信号,所以需要进行A/D转换,以一定的频率对模拟信号进行采样(就是获取一定时间间隔的波形振幅值,采样后模拟出的波形与原始波形之间的误差称为采样噪音),然后再进行量化和存储,就得到了数字音频。
数字音频:通过采样和量化获得的离散的、数字化的音频信号,即:计算机可以处理的二进制的音频数据。
相反的,当通过扬声器播放声音时,计算机内部的数字信号通过D/A转换,还原成了强弱不同的电压信号。这种强弱变化的电压会推动扬声器的振动单元产生震动,就产生了声音。整个流程可以用下图来表示:
二 PCM元数据
最常见的A/D转换是通过脉冲编码调制 PCM (Pulse Code Modulation)。要将连续的电压信号转换为PCM,需要进行采样和量化,我们一般从如下几个维度描述PCM:
采样频率(Sampling Rate):单位时间内采集的样本数,即:采样周期的倒数,指两个采样之间的时间间隔。采样频率越高,声音质量越好,但同时占用的带宽越大。一般情况下,22KHz相当于普通FM的音质,44KHz相当于CD音质,目前的常用采样频率都不超过48KHz。
采样位数:表示一个样本的二进制位数,即:每个采样点用多少比特表示。计算机中音频的量化深度一般为4、8、16、32位(bit)等。例如:采样位数为8 bit时,每个采样点可以表示256个不同的采样值,而采样位数为16 bit时,每个采样点可以表示65536个不同的采样值。采样位数的大小影响声音的质量,采样位数越多,量化后的波形越接近原始波形,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。一般情况下,CD音质的采样位数是16 bit,移动通信是8 bit。
声道数:记录声音时,如果每次生成一个声波数据,称为单声道;每次生成两个声波数据,称为双声道(立体声)。单声道的声音只能使用一个喇叭发声,双声道的PCM可以使两个喇叭同时发声(一般左右声道有分工),更能感受到空间效果。
时长:采样时长,数字音频文件大小(Byte) = 采样频率(Hz)× 采样时长(S)×(采样位数 / 8)× 声道数(单声道为1,立体声为2)
采样点数据有有符号和无符号之分,比如:8 bit的样本数据,有符号的范围是-128 ~ 127,无符号的范围是0 ~ 255。大多数PCM样本使用整形表示,但是在一些对精度要求比较高的场景,可以使用浮点类型表示PCM样本数据。
下面看一个具体的采样示例:
其中,黑色曲线表示要采集的声音波形,红色曲线表示采样量化后的PCM数据波形。上图中,采样位数是4 bit,每个红点对应一个Pcm采样数据,很明显:
采样频率越高,x轴采样点越密集,声音越接近原始数据。
采样位数越高,y轴量化越精确,声音越接近原始数据。
PCM数据存储
接下来看下PCM数据存储方式,如果是单声道音频,采样数据按照时间的先后顺序依次存储,如果是双声道音频,则按照LRLRLR方式存储,每个采样点的存储方式还与机器大小端有关。大端模式如下图所示:
Pcm文件没有头部信息,全部是采样量化后的未压缩音频数据。
PCM音量计算
我们一般用分贝(db)描述声音响度。声学领域中,分贝的定义是声源功率与基准声源功率比值的对数乘以20的数值。根据人耳的特性,我们对声音的大小感知呈对数关系,而不是线性关系。
人类的听觉反应是基于声音的相对变化而非绝对变化。对数函数正好能模仿人耳对声音的反应。所以用分贝描述声音强度更符合人类对声音强度的感知。
如下图所示,横轴表示PCM采样值,纵轴表示人耳感知到的音量,图中截取了两块横轴变化相同的区域,但是人耳感觉到的音量变化是不一样的。
在较安静的左侧,感觉到的音量变化较大;在叫喧嚣的右侧,人耳感觉到的音量变化较小。
具体来说,分贝计算公式如下所示:
了解了PCM格式和db计算方式之后,我们看下从音频文件提取db值的整体流程:
Audio音频开发音频基础知识及PCM技术详解
文章目录
1、前言
现实生活中,我们听到的声音都是时间连续的,我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。
目前我们在计算机上进行音频播放都需要依赖于音频文件。那么音频文件如何生成的呢?
音频文件的生成过程是将声音信息采样、量化和编码产生的数字信号的过程,我们人耳所能听到的声音频率范围为(20Hz~20KHz),因此音频文件格式的最大带宽是20KHZ。
根据奈奎斯特的理论,音频文件的采样率一般在40~50KHZ之间。
奈奎斯特采样定律,又称香农采样定律,即:为了不失真地恢复模拟信号,采样频率应该大于等于模拟信号频谱中最高频率的2倍。
2、概念
声音的本质是一种能量波,由振动而产生的能量波,通过传输介质传输出去。
声音有三个属性:
- 音调:声音频率的高低,表示人的听觉分辨一个声音的调子高低的程度。音调主要由声音的频率决定,同时也与声音强度有关。
- 音量:由“振幅”(amplitude)和人离声源的距离决定,振幅越大响度越大。
- 音色:又称声音的品质,波形决定了声音的音色。
波长是决定音调高低;振幅是决定音量高低;波纹是决定音色。
3、 PCM介绍
PCM(Pulse Code Modulation),即脉冲编码调制技术。
由于我们人耳听到的声音均为模拟信号,那么我们如何将听到的信息存储起来呢?这就涉及到了PCM
技术。
PCM
技术就是把声音从模拟信号转化为数字信号的技术,即对声音进行采样、量化的过程,经过PCM
处理后的数据,是最原始的音频数据,即未对音频数据进行任何的编码和压缩处理。
4、 PCM原理
脉冲编码调制就是把一个时间连续,取值连续的模拟信号变换成时间离散,取值离散的数字信号后在信道中传输。脉冲编码调制就是对模拟信号先抽样,再对样值幅度量化,编码的过程。
简化来说:PCM
脉冲编码调制,以一个固定的频率对模拟信号进行采样,并将采样的信号按照一定精度进行量化,最终量化后的值被输出,记录到存储介质中。
如下图所示:
- 原始模拟音频数据如下:
- 按照固定频率进行采样,得到:
- 最后,对采样后的数据选择合适精度进行量化:
5、PCM相关概念
5.1 采样频率
采样频率:单位时间内对模拟信号的采样次数,它用赫兹(Hz)来表示。采样频率越高,声音的还原就越真实越自然,当然数据量就越大。采样频率一般共分为22.05KHz
、44.1KHz
、48KHz
三个等级。
Tip:
5kHz
的采样率仅能达到人们讲话的声音质量。
11kHz
的采样率是播放小段声音的最低标准,是CD音质的四分之一。
22kHz
采样率的声音可以达到CD音质的一半,目前大多数网站都选用这样的采样率。
44kHz
的采样率是标准的CD音质,可以达到很好的听觉效果。
48KHz
:miniDV、数字电视、DVD、电影和专业音频。
5.2 采样位数
采样位数(Sample Bits):又称为采样精度,量化级,也相当于每个采样点所能被表示的数据范围。
采样位数通常有8bits
或16bits
两种,采样位数越大,所能记录声音的变化度就越细腻,相应的数据量就越大。
8bits
为低品质,16bits
为高品质,16bits
最为常见。
5.3 声道数
声道数(Channels):又称为通道数,指的是:能支持不同发声的音响个数,它是衡量音响设备的重要指标之一。
Tip:
- 单声道的声道数为1个声道;
- 双声道的声道数为2个声道;
- 立体声道的声道数默认为2个声道;
- 立体声道(4声道)的声道数为4个声道。
5.4 音频数据大小计算
知道上面三个概念,我们就能够计算出来一个原始的音频文件所占用空间大小了。
空间大小
(
B
y
t
e
)
=
时长
(
s
)
∗
采样位数
(
b
i
t
)
∗
声道数
/
8
空间大小(Byte)=时长(s) * 采样位数(bit)*声道数/8
空间大小(Byte)=时长(s)∗采样位数(bit)∗声道数/8
5.5 量化
量化: 量化就是通过四舍五入的方法将采样后的模拟信号转换成一种数字信号的过程。
对于采样来说,就是在时间轴上对信号数字化;
对于量化来说,就是在幅度轴上对信号数字化
通过采样时测的的模拟电压值,要进行分级量化,按整个电压变化的最大幅度划分成几个区段,把落在某区段的采样到的样品值归成一类,并给出相应的量化值。
5.6 其他参数相关
-
帧(Frame):一个声音的基本数据单元,其长度为采样位数和通道数的乘积。
-
周期(Period Size):音频设备一次处理所需要的帧数,对于音频设备的数据访问以及音频数据的存储,都是以此为单位。硬件缓冲传输单位,即完成这么多采样帧的传输,就会回馈一个中断。
- Buffer Bytes: 一个应用
Buffer
有多少个字节,DMA缓冲区大小。
因为Buffer Size由应用设置,其可大可小,若其太大,则传输的延时太大,所以对此进行分片,提出Period的概念。overrun,录制时,数据都满了,应用来不及取走;underrun,需要数据来播放,应用来不及写入数据
-
Sign :表示样本数据是否是有符号位
-
Byte Ordering:字节序,表明数据是小端(little-endian)存储还是大端(big-endian)存储,通常均为
little-endian
。 -
nteger Or Floating Point :整形或者浮点型,大多数格式的PCM样本数据使用整形表示。
-
**交错模式:**数字音频信号存储的方式。数据以连续帧的方式存放,即首先记录第一帧的左声道样本和右声道样本,再开始第2帧的记录…
-
非交错模式: 首先记录的是一个周期内所有帧的左声道样本,再记录所有右声道样本。
以FFmpeg中常见的PCM数据格式s16le为例:它描述的是有符号16位小端PCM数据。
s表示有符号,16表示位深,le表示小端存储。
6、PCM数据流
对于PCM数据都是一些文本化的描述,那么一段PCM格式的数据流怎么表示的呢?
以8-bit有符号为例,长得像这样:
+---------+-----------+-----------+----
binary | 0010 0000 | 1010 0000 | ...
decimal | 32 | -96 | ...
+---------+-----------+-----------+----
每个分割符"|"分割字节。因为是 8-bit 有符号表示的采样数据,所以采样的范围为-128~128。
OK,对于PCM数据流的存储而言,上面仅仅只是单声道。对于多声道的PCM数据而言,通常会交错排列,就像这样:
+---------+-----------+-----------+-----------+-----------+----
FL | FR | FL | FR | FL |
+---------+-----------+-----------+-----------+-----------+----
对于8-bit有符号的PCM数据而言,上图表示第一个字节存放第一个左声道数据(FL),第二个字节放第一个右声道数据(FR),第三个字节放第二个左声道数据(FL)…
7、编码
一个完整的音频,经过采样和量化后的信号,需要将它转化为数字编码脉冲,这一过程称为编码。
编码简单来说,就是按一定格式记录采样和量化后的数字数据。
PCM
技术仅仅包含采样和量化,并不包含编码部分,这里仅简单介绍。
7.1 音频编码协议ACC
AAC(Advanced Audio Coding) 高级音频编码,是一种声音数据的文件压缩格式。AAC
分为ADIF
和ADTS
两种文件格式。
- ADIF(Audio Data Interchange Format): 音频数据交换格式。这种格式的特征是只有音频数据最前面具有头字节,音频数据流中间没有头字节。因此它的解码只能在头字节处开始进行。故这种格式常用在磁盘文件中。
- ADTS(Audio Data Transport Stream): 音频数据传输流。这种格式的特征是它每一单元音频数据都有一个
header
字节,解码可以在这个流中任何位置开始。
7.2 压缩
PCM
数据是最原始的音频数据,完全无损,所以PCM数据虽然音质优秀但体积庞大,为了解决这个问题先后诞生了一系列的音频格式,这些音频格式运用不同的方法对音频数据进行压缩,其中有无损压缩和有损压缩两种。
- 无损压缩:将数据压缩之后,通过解码还能还原成与原始数据一模一样的数据为无损压缩。
- ALAC、APE、FLAC
- 有损压缩:消除冗余信息,如人耳能听到的声音为20Hz - 20000Hz 以内,所以可以将此范围外的声音去除掉。
- MP3、AAC、OGG、WMA
7.3 其他概念
- 码率:(也成位速、比特率) 是指在一个数据流中每秒钟能通过的信息量,代表了压缩质量。
比如MP3常用码率有128kbit/s、160kbit/s、320kbit/s等等,越高代表着声音音质越好。
MP3中的数据有ID3和音频数据组成,ID3用于存储歌名、演唱者、专辑、音轨等我们可以常见的信息。
码率 = 采样率 ∗ 采样位数 ∗ 声道数 码率 = 采样率 * 采样位数 * 声道数 码率=采样率∗采样位数∗声道数
例如:
如果是CD音质,采样率44.1KHz,采样位数16bit,立体声(双声道), 码率 = 44.1 * 1000 * 16 * 2 = 1411200bps = 176400Bps,那么录制一分钟的音乐, 大概176400 * 1 * 60 / 1024 / 1024 =10.09MB。
- 音频帧: 音频数据是流式的,本身没有明确的一帧帧的概念,在实际的应用中,为了音频算法处理/传输的方便,一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。
8、参考文章
[1]:https://blog.csdn.net/weixin_41910694/article/details/107644742
[2]:https://blog.csdn.net/qq_22310551/article/details/123905051
以上是关于音频基础知识 - PCM 浅析的主要内容,如果未能解决你的问题,请参考以下文章
Android音视频系列(七):PCM音频单声道与双声道的相互转换
音视频开发9. 使用ffmpeg 将pcm转码mp3实践(C++)