音频——从入门到放弃

Posted VNanyesheshou

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了音频——从入门到放弃相关的知识,希望对你有一定的参考价值。

 声音 是由物体振动产生的声波,通过介质(空气或固体、液体)传播并能被人或动物听觉器官所感知的波动现象。最初发出振动(震动)的物体叫声源。声音以波的形式振动(震动)传播。声音是声波通过任何介质传播形成的运动。

​ 人的耳朵可以听到20 ~ 20000HZ的声音,最敏感的是200~800HZ之间的声音。声音在不同介质中传播速度一般是固体>液体>气体,声的传播速度与介质的种类和介质的温度有关。

1 声音特性

  1. 响度(loudness):俗称音量,主观上感觉声音的大小,由“振幅” 和人离声源的距离决定,振幅越大响度越大,人和声源的距离越小,响度越大。(单位:分贝dB)
  2. 音调(pitch):声音的高低(高音、低音),由“频率”决定,频率越高音调越高(频率单位Hz,人耳听觉范围20~20000Hz。20Hz以下称为次声波,20000Hz以上称为超声波)例如,低音端的声音或更高的声音,如细弦声。
  3. 频率(frequency):是每秒经过一给定点的声波数量。例:1千赫或1000赫表示每秒经过一给定点的声波有1000个周期。
  4. 音色(Timbre):又称音品,波形决定了声音的音色。声音因物体材料的特性而不同,音色本身是一种抽象的东西,但波形是把这个抽象直观的表现。波形不同,音色则不同。不同的音色,通过波形,完全可以分辨的。
  5. 乐音:有规则的让人愉悦的声音。
  6. 噪音:从物理学的角度看,由发声体作无规则振动时发出的声音;从环境保护角度看,凡是干扰人们正常工作、学习和休息的声音,以及对人们要听的声音起干扰作用的声音。

声音无时无刻不在发生,它可以表达丰富的信息,记录它是那么的重要。

2 记录声音历史

  1. 史前时代,记录声波。法国发明家里昂·史考特(Leon Scott)发明了Phonoautograph声波振记器,这种机器只是记录下声波形状而已,并没有任何再生装置,可以说是留声机的鼻祖。
  2. 1877年,爱迪生发明了留声机。这是人们第一次成功的将声音保存了下来。
  3. 工业革命:黑胶唱片。
  4. 现代工业:钢丝录音机和磁带。
  5. 数字时代的到来:激光唱片,CD唱片。
  6. 互联网时代的21世纪:数字音乐。计算机储存音乐已经变成了一件轻而易举的事情。

3 音频术语

现在保存音频数据会涉及到其各种参数。如下

  1. 采样:在信号处理领域,采样是将信号从连续时间域上的模拟信号转换到离散时间域上的离散信号的过程。把音频 模拟信号转换成数字信号(A/D转换),需要经过采样和量化。
  2. 采样频率:每秒从连续信号中提取并组成离散信号的采样个数。比如:11.025kHz、22.05kHz、24kHz、44.1kHz、48kHz。
  3. 采样位数(8bit 16bit):数字信号 是用数字0和1来表示的,采样位表示多少位0或1表示一个采样数据,位数越高,越真实(接近原始数据)。通常建议用16bit。
  4. 声道:(单声道、 立体声、5.1声道等)声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量.
  5. 比特率 bitrate:也称为码率,单位时间传输的音频数据的数量,单位bit/s或bps. 比特率=采样率采样位数声道数。
  6. PCM:脉冲编码调制编码(Pulse Code Modulation),通常指转换位数字信号的音频数据。
  7. 音频编码:PCM数据占用空间,将音频PCM数据压缩叫做编码。常见编码格式:MP3、AMR、AAC、AC-3等。
  8. 音频解码:将压缩后的音频数据还原叫做解码。

4 音频文件格式

  • 非压缩格式,目前存在多种非压缩数据格式,最流行的是WAV格式。WAV文件的格式灵活,可以储存多种类型的音频数据。对于保存原始的录音数据是一个好的选择。
  • 无损压缩格式,是利用数据的统计冗余进行压缩,可完全恢复原始数据而不引起任何失真,但压缩率是受到一定限制。如:FLAC,APE,ALAC,WavPack。
  • 有损压缩格式,利用了人类对声波中的某些频率成分不敏感的特性,允许压缩过程中损失一定的信息;虽然不能完全恢复原始数据,但是所损失的部分对理解原始数据的影响缩小,却换来了大得多的压缩比。如:MP3,AAC,Ogg Vorbis,Opus。

音频文件和编解码器不同。尽管一种音频文件格式可以支持多种编码,例如AVI文件格式,但多数的音频文件仅支持一种音频编码。

5 压缩标准

主要的一些组织制作的压缩标准

  • ITU-T:国际电信联盟标准,音频压缩包括g711、g718、g719、g721、g722、g726、g729。
  • 3GPP:第三方何做伙伴计划,制定的音频标准主要有AMR、AMR-WB、AMR-WB+等。
  • IETF:互联网工程任务组,指定的音频标准包括Opus。
  • MPEG:ISO和IEC制定的标准,其中音频标准中包含压缩格式:MP3、AAC等。
  • 其他的等等。

6 疑问

人耳可以听到的频率范围为20Hz~20kHz,为什么我们用40kHz以上的采样频类呢?

根据采样定理,我们要尽可能完美的还原声音,需要用2倍以上的采样频率进行采样,所以为了更好的还原声音,我们通常使用大于40kHz的采样频率进行音频采集。

以上是关于音频——从入门到放弃的主要内容,如果未能解决你的问题,请参考以下文章

obs-studio开源项目从入门到放弃obs-studio项目简介和架构

如何从麦克风快速(超声波)读取音频?

从音频文件创建平面声波(波形)图像

音频,平衡来自2个声源的声音

Android中实现系统声音录制(内置声源的录制)-音频通道及framework调用流程分析

gentoo从入门到放弃