心理声学基础概念

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了心理声学基础概念相关的知识,希望对你有一定的参考价值。

参考技术A 什么是心理声学?

​ 声音虽然客观存在,但是人的主观听觉和客观实际存在差异化。心理声学研究的就是声音的主观感觉和物理量之间的关系,因为人耳听觉对声音的主观响应是评价音质好坏的唯一标准。 ​ 对于复杂的声音,从主观可以用响度、音高和音色来描述。客观上,响度和音高与声波的振幅(幅度)有关,音色和频谱及包络有关,而音高与频谱的频率有关。

1. 声音强度

1.1 级和分贝

​ 声波的幅度可以用声压或者声强来表示,而实际中常常使用级来表示,分贝则是常用的级的单位。 采用级的主要原因有: ​ 1. 声音震动的能量范围比较大,最大与最小值可以相差10多个数量级,表示起来比较麻烦且易出>错。使用对数表示则要方便许多。 ​ 2. 人耳听觉增长规律非线性,主观上的响度感觉并不正比于强度而是接近于强度的对数成正比。 分贝(decibel)是量度两个相同单位之数量比例的单位,主要用于度量声音强度,常用dB表示。“分”(deci-)指十分之一,个位是“贝”(bel),但一般只采用分贝。

2. 声压级、声强级和声功率级

2.1. 声功率级

​ 声功率级是声功率与基准声功率之比的以10为底的对数乘以10,以分贝计。基准声功率必须指明。其数字表示式为SWL=10lg(W/Wo),常用基准声功率Wo为10-12W。

2.2. 声强级

​ 声强级指某一处的声强级,是指该处的声强与参考声强的比值常用对数的值再乘以10,度量它的单位为分贝,符号为dB。数学表达式为SIL=10log(I/I(ref)),参考声强I(ref)是10-12瓦/米2。

2.3. 声压级

​ 声压级指在空气中参考声压p(ref)一般取为2*10E-5帕,这个数值是正常人耳对1千赫声音刚刚能觉察其存在的声压值,也就是1千赫声音的可听阈声压。数学表达式为:SPL=20lg(p/p(ref))。 ​ 生活中所到的正常交谈约60dB噪音在80dB左右以上而安全极限为140dB,这里使用的就是声压级。

2.4. librosa.power_to_db

​ librosa中计算分贝,直接使用两个相同的物理量(例如A1和A0)之比取以10为底的对数并乘以10。

3. 听觉的频率响应、响度

​ 级表明人耳对信号的强度呈非线性增长的特点,然而2个相同声级的声音人耳听起来也不一定相同,这是因为人耳的听觉频响是不平直的。

3.1. 等响曲线

​ 从等响曲线图中我们发现,人耳对高频的声音更加敏感,同样声压级下的高频声音响度级比低频的高。一般女性发声的高频成分较多,而男性发声的低频成分相对较多,这就是在同样力气讲话时(声压级相同),女性的声音听上去更加响的原因。 ​ 

3.2. 听觉频响

​ 声压级越高,人的听觉频响越平直,随着声压级降低人的听觉频响月不平直,尤其在中低频下跌幅度越大。而无论声压级多大,低于20Hz和高于20kHz的声音一般听不到而对3-5kHz频率段最敏感。

3.3. 响度

​ 响度级和等响曲线描述了人耳的听觉频响,但要描述人耳对声音大小强弱的主观判断需要引入响度。响度是一个无量纲单位。

4.音高音阶

​ 人耳对声音高低的感觉主要与频率有关,人耳的音高感觉大致与声音的基频对数呈线性关系,12平均律音阶就是在频率的对数上取等分得到的。

4.1 倍程

倍频程是频程的单位,符号为oct,等于2个音的频率比取2位底的对数,在音乐中称之为八度。 n=log2(f2/f1)

4.2. 12平均律

​ 十二平均律,亦称“十二等程律”,世界上通用的一组音(八度)分成十二个半音音程的律制,各相邻两律之间的振动数之比完全相等。十二平均律是指八度的音程(一倍频程)按频率比例地分成十二等份,每一等份称为一个半音小二度。 ​ 一个大二度则是两等份。 将一个八度分成12等份有着惊人的一些凑巧。它的纯五度音程的两个音的频率比(即2 的7/12 次方)与1.5 非常接近,人耳基 本上听不出“五度相生律”和“十二平均律”的五度音程的差别。十二平均律在交响乐队和键盘乐器中得到广泛使用,现在的钢琴即是根据十二平均律来定音的。

4.3. 音调

​ 心理声学中除了使用响度表达声音的强度,使用音调来表达听觉主观感受,音调单位为MEL。

4.4. 音色

​ 音色(Timbre)是指不同声音表现在波形方面总是有与众不同的特性,不同的物体振动都有不同的特点。音色是声音的属性(即响度、音调、音色)之一,主要由其泛音决定。每个人的声音以及各种乐器所发出的声音的区别,就是由音色不同造成的。

​ 不同的发声体由于其材料、结构不同,则发出声音的音色也不同。例如钢琴、小提琴和人发出的声音不一样,每一个人发出的声音也不一样。音色是声音的特点,和全世界人们的相貌一样总是与众不同。根据不同的音色,即使在同一音高和同一声音强度的情况下,我们也能区分出是不同乐器或人发出的。如同千变万化的调色盘是的颜色一样,“音色”也会千变万化而容易理解。

​ 音色又称为音品。为什么音色不同?是由于不同的振动总是可组合成为不同的声音。每一种乐器、不同的人的声带,以及其它所有的能振动的物体都能够发出各有特色的不同的声音,这些声音的还可以有仪器显示出波形波形。声音除了有一个‘基音’外,还自然而然加上许多不同‘频率’(振动的物体1秒钟振动的次数)与泛音‘交织’,就决定了不同的音色,使人听了以后能辨别出是不同的声音。如同区分不同的‘身份证’一样。

​ 一般来说,谐音越丰富音色越明亮也可能越尖锐,相反的,谐音贫乏的听起来更具有暗淡或柔和的音色。除了频谱,音色还与波的时间结构(包络)有关,包含起始、稳定到衰减的特性。

5. 心理效应

5.1. 双耳效应

​ 声源发出的声波到双耳的距离不同引起双耳的强度差、时间差和相位差。一侧耳朵出现的遮蔽效应也会引起强度差和音色差等。

5.2. 哈斯效应

​ 哈斯效应又称之为延时效应或优先效应,表征人耳对延时声的分辨能力,2个同样的声音先后到达,若其中一个快5-35ms那么人耳几乎察觉不到延迟,后一个起到丰满补充的作用;如果相差30-50ms人耳会有一定察觉但仍然取决于先到的声音方向;如果相差50ms以上,人耳就能分辨2个声音各自的来源方向。

5.3. 德波埃效应

​ 作为立体声系统定向的基础之一,声强级差与时间差所引起的效是是类似的,其间可以相互补偿,并且声强级差在15dB以下、时间差在3ms以内时,它们之间呈线性关系,每5dB的声强级差引起的声像偏移相当于两声音引起的时间差1ms的效果,这便是德波埃效应。

5.4. 掩蔽效应

​ 一个较弱的声音的听觉感受被另一个较强的声音影响的现象,我们就称之为人耳的“掩蔽效应”。“掩蔽效应”存在时域和频域掩蔽,“掩蔽效应”在实际声学应用中有很重要的作用,比如MP3压缩技术就采用了掩蔽效应。 ​ 

5.5.鸡尾酒效应

​ 描述在嘈杂环境中,人耳可以在掩蔽声中选择有用的声音并专注于想听的内容,表征了人在听觉上的选择关注能力。

语音信号处理1---基本概念

声域:声音太低、频率过高或过低我们都无法听到,人耳能够听到的声音频率和强度的范围称之为声域。

心理声学:人们对声音的主观感受,典型的例子:噪音刺耳、歌声悦耳。主要有响度、音高、音色、掩盖和定位等特征。

音长:振动持续的时间长短决定声音持续长久。

掩盖效应(鸡尾酒效应):在多种音源的情况下,频率接近的强信号会提高弱信号的听阀,两者响度差大到一定层度,弱信号就会给掩盖掉,即人耳就很难听到弱信号存在。

         即使掩蔽信号(强)消失后,但仍然有500ms~2000ms后向隐蔽作用。

         弱信号出现50ms~200ms后,即出现强信号,依然会有前向掩蔽作用,因为人耳还没有来得及对弱信号作出反应。

酒会效应:人可以从本底噪声环境中,听到某些频率的声音,听觉系统具有滤波效果。

纯音:单一频率的声音;

复音:具有谐波的声音;

白噪声:在所有频率点上,具有相同能量密度的随机噪声;在较宽的频率范围内,各等带宽的频带所含的噪声能量相等。

包络:每个周期的波峰之间连线,体现声强的瞬时特性。

声音三要素:振幅(响度)、频率(音高)、相位(音色)

1、响度

  1. 声压:声场中,由于声波的扰动,某一时刻某一点上的实际压力与该点上平均压力的差值;1bar 巴= 100KPa帕

有效声压:一定时间间隔内,将瞬时声压对时间求均方根

技术图片

      T声音的长度 N采样点数 x采样点

声压级:SPL ==  20Lg(有效声压 / 基准声压) dB

技术图片  pe有效声压  pref参考声压,一般为20uPa=2*10-5Pa

声压在原来基础上增加10倍,声压级增加20dB

声压在原来基础上增加2倍,声压级则增加6dB

声强:声波在单位时间内,作用在传播方向垂直单位面积上的能量。

人耳的最大声强值/最小声强值达到1012

声强级: LI= 10lg(I/I0) dB     参考声强I0== 10 -12W/m2

响度:人对声音强度的主观感受。定义1KHz 40dB的纯音为1Sone宋、

响度级:待测声音和1KHz的纯音做比较,调整纯音声压级以达到待测声音的同样响度,此时1KHz纯音的声压级就成为待测音的响度级。单位:方

例如:1KHz纯音的60dB声压级(相对20uPa)的响度,和扬声器响度一样,我们称扬声器响度为60方。

1KHz 纯音,其声强达到10-16W/cm2为0dB声强级;在0dB声强级下,人耳刚好能听到,定义为零方;

  • 听阀~频率曲线(等响度曲线)

技术图片

  • 人耳听力范围:20Hz ~ 20KHz  -5dB~130dB
  • 从频率角度看:

人耳对3~5KHz最为敏感,幅度很小的信号都能听得到。

小于800Hz的低频区 && 大于5KHz的高频区,灵敏度会下降很多。

  • 从响度级看:

                响度级小,随频率变化明显,高频区、低频区灵敏度变化敏感,低频区更为激烈。

                更要重视低频音量, 200Hz~3KHz以60、70dB为宜;

                 频带较宽的音乐,以80~90dB为最佳;

  • 不同频率,相同响度,其强度也不一定一样,等响度曲线就是把不同频率和不同强度的纯音和1kHz的纯音做等响度的配对

 技术图片

技术图片

Lp声压级、 f频率、 LN响度级、 Lu为1KHz 幅值、 α f响度感知指数     

根据频率查参数表可以得到:α 、Lu、T

2、音高(频率

人主观感觉来评价声音音调的高低,客观上取决于声波的基频,频高则调高。主观单位美mel,客观单位赫兹Hz

 技术图片

    • 音高拟合 Tmel = 2595lg(1+f/700
    • 规定40dB声强下,1kHz纯音的音高为1000mel
    • 音高测量以40dB声强,1kHz纯音为基准。
    • 人耳对响度的感觉是从闻阀到痛阀的范围,以1kHz纯音为测量基准。
    • 音高和频率之间不是线性变化的,还受到声强、波形的影响;两个40dB的纯音都增加1个倍频程,则人耳感受音高变化是相同的,即音高变化和两个频率相对变化对数成正比。1个倍频程==一个9度音

 3、音色

基音(基频产生最为清晰的声音)+ 泛音(各次谐波产生微弱振动音);同时跟材料材质、结构有关。

音质:指声音三要素。

语音信号数字化处理

模拟语音信号 —> 带通滤波器 ---> AGC自动增益控制 ---> A/D模数转换  ---> 脉冲信号编码PCM ---> 存储到硬盘

带通滤波目标:

a>抑制输入信号各频域分量中,超出fs/2的所有分量  fs为采用频率     

b>防止50Hz电源干扰

技术图片

20lgA(ω)=-3dB,解得A(ω)=10^-0.15=0.707945784≈1/√2

 

采样频率: 定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数是采样周期或者叫作采样时间,它是采样之间的时间间隔。通俗的讲采样频率是指计算机每秒钟采集多少个信号样本。

采样率:8000HZ

采样精度:16bit   振幅划分成 65536 个等级,2的16次方

声道数:2个

一个采样点的数据大小:采样精度/8*声道数(即16/8*2=4byte)

一个采样点的数据分布: 左低1字节+左高1字节+右低1字节+右高1字节(1字节*4)

一个采样点的数据值:以样本精度进行读取,多个通道相加(即16bit读取L声道值+16bit读取R声道值),读取时注意机器的大小端区别。

1s的数据大小:采样率*一个采样点的数据大小(即8000*4=32000byte)

 

奈奎斯特频率:(Nyquist frequency)是离散信号系统采样频率的一半。

奈奎斯特-香农采样定理:只有采样频率高于原始信号最高频率的两倍时,才能把数字信号表示的信号还原成为原来信号。

只要离散系统的奈奎斯特频率高于采样信号的最高频率或带宽,就可以避免混叠现象。从理论上说,即使奈奎斯特频率恰好大于信号带宽,也足以通过信号的采样重建原信号。但是,重建信号的过程需要以一个低通滤波器或者带通滤波器将在奈奎斯特频率之上的高频分量全部滤除,同时还要保证原信号中频率在奈奎斯特频率以下的分量不发生畸变,而这是不可能实现的。在实际应用中,为了保证抗混叠滤波器的性能,接近奈奎斯特频率的分量在采样和信号重建的过程中可能会发生畸变。因此信号带宽通常会略小于奈奎斯特频率;

奈奎斯特频率必须严格大于信号包含的最高频率

 

语音信号表征特性

a)时域

b)频域    语音信号具有短时平稳性,帧长一般取10~30ms 

c) 语谱图:三维,横轴为时间,纵轴为频率,能量用点的灰度表示;

时域分析不能直观看出频率特性;频域分析也看不出信号随时间的变化;

一帧(一般为1024个采样点)信号,可认为频谱不变,是短时谱,只反应静态的频率特性;

 

吉布斯效应:吉将具有不连续点的周期函数(如矩形脉冲)进行傅立叶级数展开后,选取有限项进行合成。当选取的项数越多,在所合成的波形中出现的峰起越靠近原信号的不连续点。当选取的项数很大时,该峰起值趋于一个常数,大约等于总跳变值的9%。

 振铃现象:信号的反射可能会引起振铃现象

 声波在两种媒介的分界面会产生折射、反射、透射,声波相干性等声波性质,放到后续阐述。

 

以上是关于心理声学基础概念的主要内容,如果未能解决你的问题,请参考以下文章

声学基础20210918课堂笔记

《语音信号处理》《第2章 语音信号的声学基础及产生模型》

大脑结构及脑电信号基础知识

语音信号处理1---基本概念

软件设计基础——抽象与逐步求精

LMS Virtual.Lab二次开发:声学仿真理论基础准备(Python)