VAD的简介

Posted 2023-05-06

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了VAD的简介相关的知识，希望对你有一定的参考价值。

参考技术A

语音活动检测
语音活动检测(Voice Activity Detection,VAD)又称语音端点检测,语音边界检，是指在噪声环境中检测语音的存在与否,通常用于语音编码、语音增强等语音处理系统中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。早先具有代表性的VAD方法有ITU-T的G.729 Annex B。
语音活动检测器
语音活动检测器(Voice Activity Detector）被配置为在接收到的输入信号中检测语音活动，语音活动检测器包括：输入部，被配置为接收来自所述VAD的初级语音检测器的指示初级VAD判决的信号以及来自至少一个外部VAD的指示来自所述至少一个外部VAD的语音活动判决的至少一个信号；处理器，被配置为将接收到的信号中指示的语音活动判决进行组合，以产生修改后的初级VAD判决；以及输出部，被配置为将修改后的初级VAD判决发送至所述VAD的尾响添加单元。

语音识别之语音激活(VAD)检测

导读

语音激活检测(Vioce Activation Detection)简称VAD，用来检测语音信号是否存在。VAD技术在语音领域中应用非常的广泛，在语音识别中我们可以对长语音通过VAD来检测出语音信号的空隙，通过这个空隙来分割语音，将长语音切分成短语音来进行语音识别。在电话通信中，为了减少存储数据所使用的空间，我们可以通过VAD技术将空隙的语音信号进行移除。

VAD的检测算法有多种，比较简单的一种算法是通过短时能量(STE，short time energy)和短时过零率(ZCC，zero cross counter)利用能量的特征来进行检测。短时能量就是指一帧语音信号的能量，过零率则是指一帧语音的时域信号穿过0的次数。除此之外，有些VAD检测算法会综合多个维度的语音特征包括能量特征、频域特征、倒谱特征、谐波特征、长时信息特征等。

下面我们就基于STE来实现一个VAD算法，主要基于auditok来实现

auditok实现VAD检测

安装

pip install auditok

读取音频文件

通过auditok读取音频文件，并绘制出音频文件的波形图

import os,auditok

wav_path = "example.wav"
#读取音频文件
audio = auditok.load(wav_path)
#绘制语音波形图
audio.plot()
#跳过开始的前2s,跳过没有声音的音频
audio = auditok.load(wav_path, skip=2)

VAD检测并且分割音频

auditok提供了一个split函数，可以通过声音信号能量的强弱来判断是否有人说话，从而根据语音的空隙来分割音频，这对于一段长语音的音频做分割时非常重要的，通常ASR模型是无法一次处理过长的音频

save_slice_path = "slice_wav/slice"
#检测音频中的声音进行切分
audio_slices = audio.split(
    min_dur=1,              #包含声音最短的音频长度
    max_dur=15,             #包含声音最长的音频长度,超过这个长度会被切断
    max_silence=0.3,        #音频中没有声音音频的最长长度
    energy_threshold=55     #判断音频中包含声音必须大于这个阈值
)
#切分音频
for i, r in enumerate(audio_slices):
    post_id = os.path.basename(wav_path)[:-4]
    # 输出分割音频中包含的信息
    print("slice wav i: r.meta.start:.3fs -- r.meta.end:.3fs".format(i=i, r=r))
    # 播放分段的音频
    r.play(progress_bar=True)
    # 将分段后的音频保存为wav文件
    audio_name = "_.wav".format(post_id,i+1)
    save_wav_path = os.path.join(save_slice_path,audio_name)
    filename = r.save(save_wav_path)
    print("save：".format(filename))

问题

上面我们使用了auditok来通过语音信号的能量对于音频的间隙进行分割，但是这种算法也引入了一个问题，如果音频是由人的说话声音+BGM组合成或者多人同时说话的呢？也就是一段音频中即使人没说话了，但是BGM也一直都在，这时候我们通过STE来分割音频很明显是无法实现的。

下一篇文章我们将介绍如何通过模型来实现对语音的分割

参考

以上是关于VAD的简介的主要内容，如果未能解决你的问题，请参考以下文章

语音识别基于matlab GUI MFCC+VAD端点检测智能语音门禁系统含Matlab源码 451期

vad词根

voice activity detection，VAD是啥意思

语音识别之语音激活(VAD)检测