语音识别技术的基本方法

Posted 2023-04-04

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了语音识别技术的基本方法相关的知识，希望对你有一定的参考价值。

一般来说,语音识别的方法有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。该方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模型及语音知识过于复杂，现阶段没有达到实用的阶段。
通常认为常用语言中有有限个不同的语音基元，而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现：
第一步，分段和标号
把语音信号按时间分成离散的段，每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号
第二步，得到词序列
根据第一步所得语音标号序列得到一个语音基元网格，从词典得到有效的词序列，也可结合句子的文法和语义同时进行。模板匹配的方法发展比较成熟，目前已达到了实用阶段。在模板匹配方法中，要经过四个步骤：特征提取、模板训练、模板分类、判决。常用的技术有三种：动态时间规整(DTW)、隐马尔可夫（HMM）理论、矢量量化（VQ）技术。
1、动态时间规整(DTW)
语音信号的端点检测是进行语音识别中的一个基本步骤，它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置，从语音信号中排除无声段。在早期，进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60年代日本学者Itakura提出了动态时间规整算法(DTW：DynamicTimeWarping)。算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中，未知单词的时间轴要不均匀地扭曲或弯折，以使其特征与模型特征对正。
2、隐马尔可夫法(HMM)
隐马尔可夫法(HMM)是70年代引入语音识别理论的，它的出现使得自然语音识别系统取得了实质性的突破。HMM方法现已成为语音识别的主流技术，目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。
3、矢量量化(VQ)
矢量量化(VectorQuantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是：将语音信号波形的k个样点的每一帧，或有k个参数的每一参数帧，构成k维空间中的一个矢量，然后对矢量进行量化。量化时，将k维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量，实现最大可能的平均信噪比。
核心思想可以这样理解：如果一个码书是为某一特定的信源而优化设计的，那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真，也就是说编码器本身存在区分能力。
在实际的应用过程中，人们还研究了多种降低复杂度的方法，这些方法大致可以分为两类：无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点，目前仍处于实验探索阶段。
由于ANN不能很好的描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别。

参考技术A

朋友进行语音识别，你可以试试ocr文字识别软件，现在科技发达，软件可以解决你的问题，下面来说说我的方法吧：

第一步：首先，打开ocr文字识别软件，点击上面【语音识别】功能按钮。

第二步：接着，点击左上角的【添加文件】，把需要识别的语音文件添加进去。

第三步：然后，点击右边开始识别。

第四步：最后，点击右下角【保存为TXT】文档。

朋友你试试我的方法可以不。

初探语音识别ASR算法

摘要：语音转写文字ASR技术的基本概念与数学原理简介。

本文分享自华为云社区《新手语音入门（三）：语音识别ASR算法初探 | 编码与解码 | 声学模型与语音模型 | 贝叶斯公式 | 音素》，作者：黄辣鸡。

语音识别技术的发展已有数十年发展历史，大体来看可以分成传统的识别的方法和基于深度学习网络的端到端的方法。

无论哪种方法，都会遵循“输入-编码-解码-输出”的过程。

图1 语音识别过程

编码过程：

语音识别的输入是声音，属于计算机无法直接处理的信号，所以需要编码过程将其转变为数字信息，并提取其中的特征进行处理。编码时一般会将声音信号按照很短的时间间隔，切成小段，成为帧。对于每一帧，可以通过某种规则（例如MFCC特征）提取信号中的特征，将其变成一个多维向量。向量中的每个维度都是这帧信号的一个特征。

图2 语音识别编码过程

解码过程：

解码过程则是将编码得到的向量变成文字的过程，需要经过两个模型的处理，一个模型是声学模型，一个模型是语言模型。声学模型通过处理编码得到的向量，将相邻的帧组合起来变成音素，如中文拼音中的声母和韵母，再组合起来变成单个单词或汉字。语言模型用来调整声学模型所得到的不合逻辑的字词，使识别结果变得通顺。两者都需要大量数据用来训练。

图3 语言模型处理过程

已知一段音频信号，处理成声学特征向量Acoustic Feature Vector后表示为X=[x1,x2,x3,…]X=[x1,x2,x3,…],其中x_ixi表示一帧特征向量；可能的文本序列表示为W=[w1,w2,w3,…]W=[w1,w2,w3,…],其中wi表示一个词，求W∗=argmaxwP(W∣X)，这便是语音识别的基本出发点。并且由贝叶斯公式可知：

其中，P(X|W)P(X∣W)称之为声学模型（Acoustic Model, AM）, P（W）P（W）称之为语言模型（Language Model, LM），由于P(W)P(W)一般是一个不变量，可以省去不算。

目前许多研究将语音识别问题看做声学模型与语音模型两部分，分别求取P(X|W)P(X∣W)和P(W)P(W)。后来，基于深度学习和大数据的端对端（End-to-End）方法发展起来，直接计算P(W|X)P(W∣X)，把声学模型和语言模型融为了一体。

语音识别的问题可以看做是语音到文本的对应关系，语音识别问题大体可以归结为文本基本组成单位的选择上。单位不同，则建模力度也随之改变。

图4 语音识别的基本途径

根据图中文本基本组成单位从大到小分别是：

整句文本，如“Hello
World”,对应的语音建模尺度为整条语音。
词，如孤立词“Good”、“World”、对应的语音建模尺度大约为每个词的发音范围。
音素，如将“world”进一步表示为“/wɘrld//wɘrld/”,其中的每个音标作为基本单位，对应的语音建模尺度则缩减为每个音素的发音范围。
三音素，即考虑上下文的音素，如将音素“/d//d/”进一步表示为“/l-d-sil, /u-d-l/,…/l−d−sil,/u−d−l/,…”,对应的语音建模尺度是每个三音素的发音范围，长度与单音素差不多。
隐马尔可夫模型状态，即将每个三因素都用一个三状态隐马尔可夫模型表示，并用每个状态作为建模粒度，对应的语音建模尺度将进一步缩短。

上面每种实现方法都对应着不同的建模粒度，大体可以分为以隐马尔可夫模型结构和端对端的结构。后面两期博文将详细介绍基于两种结构的语音识别算法设计。

参考

语音识别基本法 - 清华大学语音和语言技术中心[PDF]

点击关注，第一时间了解华为云新鲜技术~

以上是关于语音识别技术的基本方法的主要内容，如果未能解决你的问题，请参考以下文章