语音识别食用指南

Posted 2021-10-19 Debroon

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了语音识别食用指南相关的知识，希望对你有一定的参考价值。

语音识别食用指南

循环神经网络 RNN
单层RNN
双向RNN
多层RNN
前向传播
反向传播
LSTM 记忆增强
GRU 记忆增强
意念打字

自然语言处理
词嵌入
类比推理
矩阵表
Word2Vec
负采样
GLOVE模型
情感分类

序列模型和注意力机制
基础模型

循环神经网络 RNN

之前描述的全连接神经网络（FCN）和卷积神经网络（CNN），其目标数据的样本是不分先后的。

比如下面这句话：

既然“天气不错”，那么做出 “去打球” 这个决策的可能性应该高于“睡懒觉”。

为了获取这一类序列特征，在此基础上，具备记忆机制的循环网络模型，逐渐演进到现在，成为更有效的循环神经网络模型（RNN）。

RNN 是一种特别适合识别带有时间先后顺序的数据的算法模型（比如像是文本、语音信息，还有一些具有前后因果关系的图像数据）。

我们平常用的很多中英文翻译软件（如微信的语音转文字），就使用到了这个算法。

早上好天气，适合（去打球\\睡懒觉）。

输入到 RNN 中，会被切分成依次排成的序列：

P.S. 如果有做分词的，那 $x_{1}$ 对应的不是一个字，而是一个词。

上图中， $h_{t}$ 组成的一条竖线，称为一个 “时间步”。

第 1 次处理过程输入是 $h_{0}、x_{1}$ ，得到激活值 $h_{1}$ 。

第 2 次处理过程输入是 $h_{1}、x_{2}$ ，得到激活值 $h_{2}$ 。

也就是说，网络再对第 2 个字（ $x_{2}$ ）预测的时候，会参考第 1 个字（ $x_{1}$ ）的信息。

这样一次处理过程，也叫一个时间步，每次输入不同，但后一个时间步的输入是前一个时间步的输出。

如果遇到，下文反过来推理上文的场景就需要双向 RNN，例如：

综合上下文，既然有 “别叫醒我” 跟在后面，显然 “睡懒觉” 的可能性大幅提高。

在这一类需要结合上下文，在正序、倒序两个方向上做推理的场景中，可以通过双向 RNN 结构，加入逆向推理机制。

同正方向序列上的权值参数一样，逆序列也有权参 $W'_{hx}、W'_{hh}、W'_{hy}$ ，相应的参数量和隐藏节点个数扩展到单向模型的两倍。

俩者的区别只在于，计算激活值的方向不同， $h_{i}$ 是从 $1$ 到 $t$ ， $h'_{i}$ 是从 $t$ 到 $i$ 。