多媒体-声音

Posted 2022-12-04 有且仅有

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了多媒体-声音相关的知识，希望对你有一定的参考价值。

1. 声音信号

声音是由于物体震动而产生的一种连续的波，称为声波。声波在时间和幅度上都是连续的模拟信号，称为模拟声音信号 。

$声音 = 声波 = 模拟声音信号$

声音信号的两个基本参数是：幅度和频率；

幅度：指声波的振幅，通常用声压级表示，计量单位为分贝dB。（如上图纵轴的长短，1dB意味着刚刚能察觉到的声音）
频率：指声波每秒变化的次数，用Hz表示。（如上图00:06秒到00:07秒的变化）
- 人耳能听到的频率范围是： $20Hz - 20kHz$ ，在此范围内的声音被称为：音频信号(audio)；
- $<20Hz$ 的称为亚音信号、次声波；
- $>20kHz$ 的称为超音频信号、超声波；

根据某个声音的频率的成分的构成特征，可以将声音分为乐音和噪音两种信号。如果一个物体发所发出的声音具有清晰可辨的音高，那么这个显著的频率我们称之为基音频率，其它频率成分称为泛音。

乐音：如果所有泛音频率都是基音频率的整数倍，这个复合音我们称之为乐音，如钢琴、小提琴之声；
噪音：如果包含非整数倍基音频率的泛音，这种声音我们称之为噪音。
音色：音色是由基金与泛音的比例、泛音的分布、泛音随之间的衰变决定的。不同乐器一般音色不同。

2. 声音信号的数字化

声音信号是一种模拟信号，计算机要对它进行处理，必须首先将其转换为数字声音信号，即用二进制数字的编码形式来表示声音。声音信号数字化有以下3个步骤：

采样。采样就是把时间上连续的模拟信号在时间轴上离散化的过程。一般是每隔相等的一小段时间采样一次，这个时间间隔称为采样周期，它的倒数称为采样频率（每秒采样次数）。采样定理是选择采样频率的理论依据，为了不产生失真，采样频率需要大于声音信号最高频率的两倍。

假设某一段声音的最高频率是10kHz，那么对这段声音进行数据化时，为了不失真最好将采样频率设置为20kHz。

人耳能听到最高是每秒两万次声波变化 20kHz，二倍就是40kHz。

采样的3个标准频率：11.05kHz（11025Hz），（22.05kHz）22050Hz和44.1kHz（44100Hz） 三种。
量化。量化是把在幅度上连续取值（模拟量）的每一个样本转化为一个离散值（数字量）。量化后用二进制表示，bit位的多少反映了度量声音幅度的精度，称为量化精度/量化位数/量化分辨率。

量化精度：用几个bit表示振幅。

通常有8bit、16bit、24bit三种。8bit取值范围0-255，精度（非量化精度）为1/256；16bit取值范围0-65535，精度为1/65536；24bit取值范围0-16,777,215，精度1/16,777,216；

CD标准的量化精度是16bit，DVD标准的量化精度是24bit。
编码。经过采样和量化处理后的每个声音采样信号已经是数字形式了，为了便于存储、处理和传输，还必须按照一定的格式进行数据编码，再按照某种可是将其组织为文件，还可以进行数据压缩。

例如采样频率44.1kHz，量化位数16bit，则代表：每秒取44,100次值，每个值用2字节表示，那么每秒要使用88,100字节≈86KB。按一首歌4分钟，那么就需要20MB

数字化处理之后的数字声音有如下主要参数：

参数	说明
采样频率	每秒钟的采样次数。3个标准频率为11.05kHz，22.05kH和44.1kHz
量化位数	幅度用几个bit表示。一般为8bit、16bit、24bit，注意这个可以任意的，不是规矩
声道数目	单声道一次产生一组波形数据，双声道（立体声）一次同时产生两组声音波形数据
数据(传输)率/比特率	每秒的数据量，一般以bps为单位，bits per second。`.mp3`128-320kpbs，`.flac`700-1000多
压缩比	单位时间内的未压缩音频数据量与压缩后数据量之比

3. 波形声音信息

波形声音信息是对声音信号波形直接采样的数据（意指未压缩）。其数据传输率可以如下计算：

$数据传输率bps = 采样频率Hz * 量化位数bit * 声道数$

所占存储空间可以用以下公式计算：

$声音信号数据量Byte = 数据传输率bps * 持续时间s / 8$

题目：

对语音信号数字化采样，采样频率为8kHz，量化精度为8位，单声道输出，计算每秒钟以及每小时的数据量。

$每秒数据量： 8,000kHz * 8bit * 1 * 1 / 8 = 8000bit = 7.8125KB$
$每小时数据量： 7.8125KB * 3600 = 28,125KB ≈ 27.466MB$
CD唱片上所存储的立体声高保真数字音乐的采样频率为44.1kHz，量化精度为16位，双声道，计算一个小时的数据量。

$一小时数据量： 44,100Hz * 16bit * 2 * 3600s = 635040000Byte ≈ 605.6MB$

由上面的题目可知，声音波形数据量有点大，因此在编码的时候常常采用压缩的方式。有如下3类压缩技术：

波形编码技术：直接对波形采样数据进行压缩处理。可获得较高的声音重构质量，但很难获得高压缩比。
参数编码技术：只对语音数据来说可以采用，重构质量差，但压缩比高。
感知声音编码技术（Perceptual Audio Coding）：利用人的听觉系统特性，听觉掩蔽特性、心理声学模型等等来做，可以获得高压缩比、高重构质量。如：MPEG-1 Audio、MPEG-2 Audio、MPEG-2 AAC和MPEG-4 Audio。

4. 声音合成

个人计算机和多媒体系统中的声音除了数字波形之外，还有一类是使用符号参数表示的。如果要将声音播放出来，则需要由计算机合成出对应的声音信号，包括语音合成和音乐合成。

1. 语音合成

语音合成目前主要指从文本到语音的合成，也成文语转换。采用语音转换的方法输出语音，应预先建立语音参数数据库、发音规律库等。文语转换在原理上一般分为两步：

第一步先将文字序列转换成音韵的序列；
第二步再由语音合成器生成语音波形；

其中，第一步设计语言学处理，例如分词、字音转换等，以及一套有效的韵律控制规则；第二步需要使用语音合成技术，能按要求实时合成出高质量的语音流。
从合成采用的技术来说，语音合成可分为发音参数合成、声道模型参数合成和波形编辑合成。

发音参数合成。对人的发音过程进行直接模拟。由于人发音的生理过程复杂以及理论计算与物理模拟之间的差异，合成语音的质量目前还不理想；
声道模型参数合成。这种方法基于声道截面积函数或声道谐振特性合成语音，如共振峰合成器、LPC合成器。比特率低、音质适中。为改善音质还出现了混合编码技术。比特率有所增大，同时音质得到提升。
波形编辑合成。波形编辑合成技术是直接把语音波形数据库中的波形相互拼接在一起，输出连续的语流。用原始语音波形代替参数，语言清晰、自然。质量普遍高于参数合成。

2. 音乐合成

音乐是用乐谱进行描述，由乐器演奏而成的。乐谱的基本组成单元是音符，现代音乐体系中基本音阶由7个音组成，常用音符88个，电子乐器中可以支持到128个。
数字音乐合成主要有一下两类方法：

数字调频（FM）合成法。FM是使高频振荡波的频率按调制信号规律变化的一种调制方式。
波表（Wavetable）合成法。使用FM合成法产生的乐音并不理想，乐器音色的真实感受较差。目前，电子音乐合成一般采用波表合成法，这种方法把真实乐器发出的声音波形进行数字采样，然后将他们放在一个索引表中，合成音乐时查询获取真实波形。音色真实、质量好，合成音乐效果接近真实乐器的音色。

5. MIDI

MIDI（Musical Instrument Digital Interface）是指“乐器数字接口”国际标准。MIDI规定了电子乐器与计算机之间、电子乐器之间硬件互联及数据通讯协议的完整规范。可以解决不同乐器之间不兼容的问题；

MIDI设备是指符合MIDI规范的设备，通过MIDI接口，不同MIDI设备之间可以进行信息交换。

MIDI文件是指计算机中用于存储和交换MIDI消息的一种数据文件，它由一系列的MIDI消息组成。

标准MIDI文件采用的文件扩展名为.mid，是音序软件的文件交换标准，也是商业音乐作品发行的标准。

MIDI音乐信息与高保真的波形声音信息相比，虽然音质受限于具体使用的音乐合成器，但它的数据量少得多，又易于编辑修改，还可以与波形声音同时播放。

6. 声音文件格式

Wave文件（.wav），Microsoft Windows系统中使用的标准音频文件格式，它来源于对声音波形的采样，见名知意wave即波浪。质量非常高，文件数量大。其一般采样频率44.1kHz，量化位数16bit，再假设是立体声则每分钟10MB。
AIFF文件（.aif），Apple公司的Mac OS中标准音频文件格式。
MPEG-1 Audio Layer 3 文件（.mp3），最流行的文件格式。
MPEG-4 Audio（.m4a），在MPEG-4标准中，普通MPEG-4文件扩展名为.mp4，不过Apple为了区分视频与音频，开始给MPEG-4的音频单独起了.m4a这个名字，大家也都跟着用了。iPhone录音就是这个。

MPEG

MPEG（Moving Picture Experts Group，动态图像专家组）是ISO和IEC于1998年成立的专门为：运动图像和语音压缩（即视频和音频）指定国际标准的组织。

目前有5个标准：MPEG-1、MPEG-2、MPEG-4、MPEG-7、MPEG-21。

建立了ISO/IEC 11172压缩编码标准，并制定出MPEG-X格式。

MPEG-1

1992年正式出版，编号ISO/IEC 11172。原本为了在CD光盘上记录视频，后来被广泛用于VCD；解决了多媒体的存储问题，它的成功制定使得以VCD和MP3为代表的MPEG-1产品迅速在世界范围内普及。（CD：Compact Disc记录音频，VCD Video CD记录视频，VCD只在亚洲流行）
1. layer 1：编码简单，用于数字盒式录音磁带；
2. layer 2：编码中等，用于数字音频广播（DAB）和Video CD（VCD）；
3. layer 3：编码复杂，称为MP3，用于互联网上的高质量声音传输，如MP3；
MPEG-2

广播质量的视频、音频和传输协议。被用于无线数字电视-ATSC、DVB以及ISDB、数字卫星电视（DirecTV）、数字有线电视信号以及DVD视频光盘技术。

和CD不同，DVD（Digital Versatile Disc）于一开始已设计为多用途光盘。原始的DVD规格共有五种子规格：
- DVD-ROM：用作存储电脑数据
- DVD-Video：用作存储视频
- DVD-Audio：用作存储音乐
- DVD-R：只可写入一次刻录碟片
- DVD-RAM：可重复写入刻录碟片
MPEG-4

2003年发布，主要是扩展了MPEG-1、MPEG-2等标准以支持视频/音频对象ojbect的编码、3D内容、低比特率编码和数字版权管理，其中第10部分由ISO/IEC和ITU-T联合发布，称为H.264/MPEG-4 Part 10。
MPEG-7

MPEG-7并不是一个视讯压缩标准，是一个多媒体内容的描述标准。
MPEG-21

MPEG-21正在制定，它的目标是为未来多媒体的应用提供一个完整的平台。