语音分区域唤醒识别功能啥意思

Posted 2023-03-09

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了语音分区域唤醒识别功能啥意思相关的知识，希望对你有一定的参考价值。

语音唤醒，有时也称为关键词检测(Keyword spotting)，也就是在连续不断的语音中将目标关键词检测出来，一般目标关键词的个数比较少（1~2个居多，特殊情况也可以扩展到更多的几个）。

语音唤醒和语音识别的区别：语音识别只能处理一段一段的语音数据，也就是待识别的语音有明确的开始和结束，比如siri按下home键，开始录音说话，松开录音结束，返回识别结果；语音唤醒是处理连续不断的语音流，比如语音开关24小时不间断的检测麦克录音中的关键词信息；语音唤醒可以和语音识别技术结合，用于检测语音开始的位置，替换掉按键，比如Amazon Echo中，用”alexa”作为唤醒词，一旦检测到唤醒词，则开始录音进行语音识别。

语音唤醒性能：

唤醒率：将连续语流中存在的唤醒词检测出来，这个和语音识别的识别率有一定的相似性

误唤醒率：连续语音中不存在唤醒词，但是将一些其他语音误判为唤醒关键词

常用的实现方式：dnn+hmm(深度神经网络+隐马尔科夫模型)，lstm+ctc(长短时记忆网络+全连接时序分类模型)

目前业界软件唤醒方案，也即提供SDK,实现唤醒功能一般分为在线和离线版本。国内主要以科大讯飞与百度为代表。唤醒率总体超过95%(这个只能参考，具体看测试场景)。网上也有多种开源的小型语音识别引擎，可以实现单独的语音唤醒功能，性能参差不齐。

简单说明各算法优缺点

Sphinx
优点
前端结构模块化较好。包括实现预加重、加窗、FFT、Mel频率滤波器、离散余弦变换、MFCC特征提取
通用的声学模型结构
适合嵌入到android、ARM平台
操作文档具有很好的可读性，易于学习，贴近实践操作
缺点
采用传统的HMM-GMM框架，对其原理的学习及掌握具有一定的难度

Mozilla DeepSpeech
优点
该模型的准确性接近人类在听同样的录音时的感知
Mozilla还发布了世界上第二大公开的语音数据集，这是全球近2万名用户的贡献
缺点
语音数据主要集中在英文语言，还缺乏多种语音数据集的支持
男性语音数据暂时多于女性语音数据

HTK
优点
代码历史悠久、稳定、高效
操作文档HTKBOOK全面
模型训练工具齐全
缺点
采用传统的HMM框架，对其原理的学习及掌握具有一定的难度
模型训练的预处理的部分工作繁琐易出错
Julius
优点
支持神经网络建模
最新的版本采用模块化的设计思想，使得各功能模块可以通过参数配置
缺点
文档以日文居多
神经网络中的优化trick较多，较多地依赖于经验

Kaldi
优点
加入了对神经网络的支持
维护更新及时
学术界、工业界活跃度高，是目前主流的语音识别研发工具
缺点
通过公共接口的设计让不同的工具容易协作，但是增加了对脚本及算法的理解难度
神经网络中的优化较多，调参较多地依赖于经验
iATROS
优点
适用于语音和手写文字识别的实现
提供了一个模块化的结构，可以用来建立不同的系统，其核心是一个类维特比在Hidden Markov模型的网络搜索
提供离线识别和在线语音识别标准工具（基于ALSA模块）
缺点
网络复杂度较高，识别速度略慢

Wav2letter
优点
简单高效的端到端自动语音识别（ASR）系统，结合了基于卷积网络的声学模型和图解码
其被训练输出文字，转录语音，而无需强制对齐音素
引入了一个自动的序列标注训练分割准则，而不需要与CTC一致的对齐方式
缺点
目前只能识别英文语音参考技术A 1. 语音唤醒,有时也称为关键词检测(Keyword spotting),也就是在连续不断的语音中将目标关键词检测出来,一般目标关键词的个数比较少

2. 语音唤醒和语音识别的区别:语音识别只能处理一段一段的语音数据,也就是待识别的语音有明确的开始和结束,比如siri按下home键,开始录音说话,松开录音结束,返回参考技术B 语音唤醒是指设定一个唤醒词，如Siri的“Hi Siri”，只有用户说了唤醒词后终端上的语音识别功能才会处于工作状态，否则处于休眠状态。这样做主要是为了降功耗，增加续航时间。目前很多终端都是靠电池供电的，对功耗很敏感，是不允许让语音识别功能一直处于工作状态的参考技术C 语音唤醒的意思就是你的手机或者其他设备带有语音的功能，你可以使用特定的语音，将手机或者是其他设备启动，比如siri。参考技术D 由于目前终端（如手机）上的CPU还不足够强劲，不能让语音识别的各种算法跑在终端上，尤其现在语音识别都是基于深度学习来做了，更加不能跑在终端上，所以目前主流的语音识别方案是声音采集和前处理在终端上做，语音识别算法则放在服务器（即云端）上跑。虽然这种方案有泄漏隐私（把终端上的语音数据发给服务器）和没有网络不能使用等缺点，但也是不得已而为之的，相信在不久的将来等终端上的CPU足够强劲了会把语音识别的所有实现都放在终端上的。

以上是关于语音分区域唤醒识别功能啥意思的主要内容，如果未能解决你的问题，请参考以下文章

语音识别简述

数字语音识别0-9常出现的问题

使用APICloud & 科大讯飞SDK快速实现语音识别功能

在做语音识别时，RNN和CNN各有啥优缺点

语音识别

树莓派使用snowboy以及百度语音api实现语音识别助手