心理声学基础

Posted 2023-04-07

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了心理声学基础相关的知识，希望对你有一定的参考价值。

参考技术A

声音虽然客观存在，但是人的主观听觉和客观实际存在差异化。心理声学研究的就是声音的主观感觉和物理量之间的关系，因为人耳听觉对声音的主观响应是评价音质好坏的唯一标准。对于复杂的声音，从主观可以用响度、音高和音色来描述。客观上，响度和音高与声波的振幅（幅度）有关，音色和频谱及包络有关，而音高与频谱的频率有关。

声波的幅度可以用声压或者声强来表示，而实际中常常使用级来表示，分贝则是常用的级的单位。采用级的主要原因有：

a. 声音震动的能量范围比较大，最大与最小值可以相差10多个数量级，表示起来比较麻烦且易出错。使用对数表示则要方便许多。

b. 人耳听觉增长规律非线性，主观上的响度感觉并不正比于强度而是接近于强度的对数成正比。

分贝（decibel）是量度两个相同单位之数量比例的单位，主要用于度量声音强度，常用dB表示。“分”（deci-）指十分之一，个位是“贝”（bel），但一般只采用分贝。

声功率级是声功率与基准声功率之比的以10为底的对数乘以10，以分贝计。基准声功率必须指明。其数字表示式为 SWL=10lg(W/Wo) ，常用基准声功率Wo为10-12W。

声强级指某一处的声强级，是指该处的声强与参考声强的比值常用对数的值再乘以10，度量它的单位为分贝，符号为dB。数学表达式为 SIL=10log(I/I(ref)) ，参考声强I(ref)是10-12瓦/米2。

声压级指在空气中参考声压p(ref）一般取为2*10E-5帕，这个数值是正常人耳对1千赫声音刚刚能觉察其存在的声压值，也就是1千赫声音的可听阈声压。数学表达式为： SPL=20lg(p/p(ref)) 。

生活中所到的正常交谈约60dB噪音在80dB左右以上而安全极限为140dB，这里使用的就是声压级。

librosa中计算分贝，直接使用两个相同的物理量（例如A1和A0）之比取以10为底的对数并乘以10（也可以是20）。

级表明人耳对信号的强度呈非线性增长的特点，然而2个相同声级的声音人耳听起来也不一定相同，这是因为人耳的听觉频响是不平直的。

从等响曲线图中我们发现，人耳对高频的声音更加敏感，同样声压级下的高频声音响度级比低频的高。一般女性发声的高频成分较多，而男性发声的低频成分相对较多，这就是在同样力气讲话时（声压级相同），女性的声音听上去更加响的原因。

声压级越高，人的听觉频响越平直，随着声压级降低人的听觉频响月不平直，尤其在中低频下跌幅度越大。而无论声压级多大，低于20Hz和高于20kHz的声音一般听不到而对3-5kHz频率段最敏感。

响度级和等响曲线描述了人耳的听觉频响，但要描述人耳对声音大小强弱的主观判断需要引入响度。响度是一个无量纲单位。

人耳对声音高低的感觉主要与频率有关，人耳的音高感觉大致与声音的基频对数呈线性关系，12平均律音阶就是在频率的对数上取等分得到的。

倍频程是频程的单位，符号为oct，等于2个音的频率比取2位底的对数，在音乐中称之为八度。 n=log2(f2/f1)

十二平均律，亦称“十二等程律”,世界上通用的一组音（八度）分成十二个半音音程的律制，各相邻两律之间的振动数之比完全相等。十二平均律是指八度的音程（一倍频程）按频率比例地分成十二等份，每一等份称为一个半音小二度。

一个大二度则是两等份。将一个八度分成12等份有着惊人的一些凑巧。它的纯五度音程的两个音的频率比（即2 的7/12 次方）与1.5 非常接近，人耳基本上听不出“五度相生律”和“十二平均律”的五度音程的差别。十二平均律在交响乐队和键盘乐器中得到广泛使用，现在的钢琴即是根据十二平均律来定音的。

心理声学中除了使用响度表达声音的强度，使用音调来表达听觉主观感受，音调单位为MEL。

音色（Timbre）是指不同声音表现在波形方面总是有与众不同的特性，不同的物体振动都有不同的特点。音色是声音的属性（即响度、音调、音色）之一，主要由其泛音决定。每个人的声音以及各种乐器所发出的声音的区别，就是由音色不同造成的。

不同的发声体由于其材料、结构不同，则发出声音的音色也不同。例如钢琴、小提琴和人发出的声音不一样，每一个人发出的声音也不一样。音色是声音的特点，和全世界人们的相貌一样总是与众不同。根据不同的音色，即使在同一音高和同一声音强度的情况下，我们也能区分出是不同乐器或人发出的。如同千变万化的调色盘是的颜色一样，“音色”也会千变万化而容易理解。

音色又称为音品。为什么音色不同？是由于不同的振动总是可组合成为不同的声音。每一种乐器、不同的人的声带，以及其它所有的能振动的物体都能够发出各有特色的不同的声音，这些声音的还可以有仪器显示出波形波形。声音除了有一个‘基音’外，还自然而然加上许多不同‘频率’（振动的物体1秒钟振动的次数）与泛音‘交织’，就决定了不同的音色，使人听了以后能辨别出是不同的声音。如同区分不同的‘身份证’一样。

一般来说，谐音越丰富音色越明亮也可能越尖锐，相反的，谐音贫乏的听起来更具有暗淡或柔和的音色。除了频谱，音色还与波的时间结构（包络）有关，包含起始、稳定到衰减的特性。

声源发出的声波到双耳的距离不同引起双耳的强度差、时间差和相位差。一侧耳朵出现的遮蔽效应也会引起强度差和音色差等。

哈斯效应又称之为延时效应或优先效应，表征人耳对延时声的分辨能力，2个同样的声音先后到达，若其中一个快5-35ms那么人耳几乎察觉不到延迟，后一个起到丰满补充的作用；如果相差30-50ms人耳会有一定察觉但仍然取决于先到的声音方向；如果相差50ms以上，人耳就能分辨2个声音各自的来源方向。

作为立体声系统定向的基础之一，声强级差与时间差所引起的效是是类似的，其间可以相互补偿，并且声强级差在15dB以下、时间差在3ms以内时，它们之间呈线性关系，每5dB的声强级差引起的声像偏移相当于两声音引起的时间差1ms的效果，这便是德波埃效应。

一个较弱的声音的听觉感受被另一个较强的声音影响的现象，我们就称之为人耳的“掩蔽效应”。“掩蔽效应”存在时域和频域掩蔽，“掩蔽效应”在实际声学应用中有很重要的作用，比如MP3压缩技术就采用了掩蔽效应。

描述在嘈杂环境中，人耳可以在掩蔽声中选择有用的声音并专注于想听的内容，表征了人在听觉上的选择关注能力。

我们是行者AI，我们在“AI＋游戏”中不断前行。

如果你也对游戏感兴趣，对AI充满好奇，就快来加入我们吧~

《语音信号处理》《第2章语音信号的声学基础及产生模型》

语音学三个分支：

1. 发音语音学

2. 声学语音学----进一步出现了声音模拟、语音合成、语音识别

3. 听觉语音学和心理语言学----研究人耳和大脑

本章介绍语音产生的过程及人耳的听觉过程，传统的线性语音产生模型以及目前广泛受到重视的非线性

语音产生模型，这些都是从事语音信号处理研究的基础知识。

2.1 语音信号的产生

声带振动产生声音，这是产生声音的基本声源，称为声带音源。

基音周期

基音频率 80Hz - 500Hz

声道

浊音 voiced sound 声带振动产生的

清音 unvoiced sound

语音是以声波的方式在空气中传播。声波是一种纵波，它的振动方向和传播方向是一致的。

复合音

纯音--仅仅有基音，没有倍音。

法国物理学家傅里叶发现了各个声音之间的区别在于和弦（chord）的不同。

之所以能够听出每种乐器都有自己特殊的音色，就是因为它们的和弦不同。

一个声音的基音与倍音，共同组成这个声音的和弦。

在复合音中，基频的频率最低，但振幅最大。其余各个倍音的能量逐渐地减少，振幅就逐渐减小。

2.1.3 语音信号在时域和频域的表示

频谱是是表征语音特性的基本参数。其中共振峰就是一个典型的频域参数，它可以决定信号频谱的

总体轮廓或谱包络。

一般假设语音信号是一种短时平稳信号。时频分析，小波变换

语谱图----时频图

2.1.5 汉语语音的韵律特性

语音的声学特征是指音色、音高、音长和音强。

汉语中，主要靠音色和音高来区别语义，而音强和音长不能区别语义。

以上是关于心理声学基础的主要内容，如果未能解决你的问题，请参考以下文章

《语音信号处理》《第2章语音信号的声学基础及产生模型》

LMS Virtual.Lab二次开发：声学仿真理论基础准备（Python）

心理声学基础

《语音信号处理》《第2章 语音信号的声学基础及产生模型》

《语音信号处理》《第2章语音信号的声学基础及产生模型》