CS224N WINTER 2022RNN语言模型梯度消失与梯度爆炸（附Assignment3答案）

Posted 2022-06-02 囚生CY

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了CS224N WINTER 2022RNN语言模型梯度消失与梯度爆炸（附Assignment3答案）相关的知识，希望对你有一定的参考价值。

CS224N WINTER 2022（一）词向量（附Assignment1答案）
CS224N WINTER 2022（二）反向传播、神经网络、依存分析（附Assignment2答案）
CS224N WINTER 2022（三）RNN、语言模型、梯度消失与梯度爆炸（附Assignment3答案）
CS224N WINTER 2022（四）机器翻译、注意力机制、subword模型（附Assignment4答案）
CS224N WINTER 2022（五）Transformers详解（附Assignment5答案）

序言

CS224N WINTER 2022课件可从https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1224/下载，也可从下面网盘中获取：
```
https://pan.baidu.com/s/1LDD1H3X3RS5wYuhpIeJOkA
提取码: hpu3
```
本系列博客每个小节的开头也会提供该小结对应课件的下载链接。
课件、作业答案、学习笔记（Updating）：GitHub@cs224n-winter-2022
关于本系列博客内容的说明：
- 笔者根据自己的情况记录较为有用的知识点，并加以少量见解或拓展延申，并非slide内容的完整笔注；
- CS224N WINTER 2022共计五次作业，笔者提供自己完成的参考答案，不担保其正确性；
- 由于CSDN限制博客字数，笔者无法将完整内容发表于一篇博客内，只能分篇发布，可从我的GitHub Repository中获取完整笔记，本系列其他分篇博客发布于（Updating）：
  
  CS224N WINTER 2022（一）词向量（附Assignment1答案）
  
  CS224N WINTER 2022（二）反向传播、神经网络、依存分析（附Assignment2答案）
  
  CS224N WINTER 2022（三）RNN、语言模型、梯度消失与梯度爆炸（附Assignment3答案）
  
  CS224N WINTER 2022（四）机器翻译、注意力机制、subword模型（附Assignment4答案）
  
  CS224N WINTER 2022（五）Transformers详解（附Assignment5答案）

文章目录

序言

lecture 5 循环神经网络和语言模型

slides

[slides]

神经依存分析模型架构：slides p.4

常规的依存分析方法涉及的类别特征是稀疏且不完整的，因此需要耗费大量时间用于特征运算；神经网络方法可以学习得到稠密的特征表示来更好地解决问题。

这里再次提到lecture3的notes部分提到的greedy Greedy Deterministic Transition-Based Parsing的例子，神经网络在给定状态三元组 $(\\sigma,\\beta,A)$ 的特征表示下，对下一次可能的转移（三种转移策略之一）进行预测。

与Neural transition-based依存解析模型对应，也有Neural graph-based依存解析模型，它要预测的就是图节点（单词）之间的依存关系是否存在，有点类似证明图。

### notes
神经依存分析的评估指标：slides p.5

左边的Gold是依存分析训练集的标注格式，包括词性标注的预测以及依赖关系的预测。

看起来UAS是依赖关系的精确度，LAS是词性标注的精确度。（这么解释是合理的）

正好在看这部分又查阅到另一篇博客，感觉讲得比我清楚。
神经网络参数初始化：slides p.16

这个在lecture3的式 $(3.7)$ 中也有提过一次，这里提到的初始化规则是：
- 截距项初始化为零；
- 权重矩阵的数值在 $\\textUniform(-r,r)$ 的分布上采样，尽量确保初始值的方差满足下式：
  $\\textVar(W_i)=\\frac2n_\\rm in+n_\\rm out\\tag5.1$
  其中 $n_\\rm in$ 与 $n_\\rm out$ 分别表示 $W_i$ 的fan-in与fan-out；
语言模型：slides p.19-22

语言模型旨在给定单词序列的条件下，预测下一个单词是什么（输入法的联想）：
$P(x^(t+1)|x^(t),...,x^(1))\\tag5.2$
也可以看作是计算一段文本出现的概率（文本校正）：
$\\beginaligned P(x^(1),...,x^(T))&=P(x^(1))\\times P(x^(2)|x^(1))\\times...\\times P(x^(T)|x^(T-1),...,x^(1))\\\\ &=\\prod_t=1^TP(x^(t)|x^(t-1),...,x^(1)) \\endaligned\\tag5.3$
n-gram模型：slides p.23-32

最经典的统计语言模型莫过于n-gram模型，即只考虑长度不超过n的单词序列的转移概率与分布概率，假定：
$\\beginaligned P(x^(t+1)|x^(t),...,x^(1))&=P(x^(t+1)|x^(t),...,x^(t-n+2))\\\\ &=\\fracP(x^(t+1),x^(t),...,x^(t-n+2))P(x^(t),...,x^(t-n+2))\\\\ &\\approx\\frac\\textcount(x^(t+1),x^(t),...,x^(t-n+2))\\textcount(x^(t),...,x^(t-n+2)) \\endaligned\\tag5.4$

CS224N WINTER 2022机器翻译注意力机制subword模型（附Assignment4答案）

CS224N WINTER 2022机器翻译注意力机制subword模型（附Assignment4答案）

CS224N WINTER 2022机器翻译注意力机制subword模型（附Assignment4答案）

CS224N WINTER 2022词向量（附Assignment1答案）

CS224N WINTER 2022词向量（附Assignment1答案）