CS224N WINTER 2022RNN语言模型梯度消失与梯度爆炸(附Assignment3答案)
Posted 囚生CY
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了CS224N WINTER 2022RNN语言模型梯度消失与梯度爆炸(附Assignment3答案)相关的知识,希望对你有一定的参考价值。
CS224N WINTER 2022(一)词向量(附Assignment1答案)
CS224N WINTER 2022(二)反向传播、神经网络、依存分析(附Assignment2答案)
CS224N WINTER 2022(三)RNN、语言模型、梯度消失与梯度爆炸(附Assignment3答案)
CS224N WINTER 2022(四)机器翻译、注意力机制、subword模型(附Assignment4答案)
CS224N WINTER 2022(五)Transformers详解(附Assignment5答案)
序言
-
CS224N WINTER 2022课件可从https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1224/下载,也可从下面网盘中获取:
https://pan.baidu.com/s/1LDD1H3X3RS5wYuhpIeJOkA 提取码: hpu3
本系列博客每个小节的开头也会提供该小结对应课件的下载链接。
-
课件、作业答案、学习笔记(Updating):GitHub@cs224n-winter-2022
-
关于本系列博客内容的说明:
-
笔者根据自己的情况记录较为有用的知识点,并加以少量见解或拓展延申,并非slide内容的完整笔注;
-
CS224N WINTER 2022共计五次作业,笔者提供自己完成的参考答案,不担保其正确性;
-
由于CSDN限制博客字数,笔者无法将完整内容发表于一篇博客内,只能分篇发布,可从我的GitHub Repository中获取完整笔记,本系列其他分篇博客发布于(Updating):
CS224N WINTER 2022(一)词向量(附Assignment1答案)
CS224N WINTER 2022(二)反向传播、神经网络、依存分析(附Assignment2答案)
CS224N WINTER 2022(三)RNN、语言模型、梯度消失与梯度爆炸(附Assignment3答案)
-
文章目录
lecture 5 循环神经网络和语言模型
slides
[slides]
-
神经依存分析模型架构:slides p.4
常规的依存分析方法涉及的类别特征是稀疏且不完整的,因此需要耗费大量时间用于特征运算;神经网络方法可以学习得到稠密的特征表示来更好地解决问题。
这里再次提到lecture3的notes部分提到的greedy Greedy Deterministic Transition-Based Parsing的例子,神经网络在给定状态三元组 ( σ , β , A ) (\\sigma,\\beta,A) (σ,β,A)的特征表示下,对下一次可能的转移(三种转移策略之一)进行预测。
与Neural transition-based依存解析模型对应,也有Neural graph-based依存解析模型,它要预测的就是图节点(单词)之间的依存关系是否存在,有点类似证明图。
### notes
-
神经依存分析的评估指标:slides p.5
左边的Gold是依存分析训练集的标注格式,包括词性标注的预测以及依赖关系的预测。
看起来UAS是依赖关系的精确度,LAS是词性标注的精确度。(这么解释是合理的)
正好在看这部分又查阅到另一篇博客,感觉讲得比我清楚。
-
神经网络参数初始化:slides p.16
这个在lecture3的式 ( 3.7 ) (3.7) (3.7)中也有提过一次,这里提到的初始化规则是:
-
截距项初始化为零;
-
权重矩阵的数值在 Uniform ( − r , r ) \\textUniform(-r,r) Uniform(−r,r)的分布上采样,尽量确保初始值的方差满足下式:
Var ( W i ) = 2 n i n + n o u t (5.1) \\textVar(W_i)=\\frac2n_\\rm in+n_\\rm out\\tag5.1 Var(Wi)=nin+nout2(5.1)
其中 n i n n_\\rm in nin与 n o u t n_\\rm out nout分别表示 W i W_i Wi的fan-in与fan-out;
-
-
语言模型:slides p.19-22
语言模型旨在给定单词序列的条件下,预测下一个单词是什么(输入法的联想):
P ( x ( t + 1 ) ∣ x ( t ) , . . . , x ( 1 ) ) (5.2) P(x^(t+1)|x^(t),...,x^(1))\\tag5.2 P(x(t+1)∣x(t),...,x(1))(5.2)
也可以看作是计算一段文本出现的概率(文本校正):
P ( x ( 1 ) , . . . , x ( T ) ) = P ( x ( 1 ) ) × P ( x ( 2 ) ∣ x ( 1 ) ) × . . . × P ( x ( T ) ∣ x ( T − 1 ) , . . . , x ( 1 ) ) = ∏ t = 1 T P ( x ( t ) ∣ x ( t − 1 ) , . . . , x ( 1 ) ) (5.3) \\beginaligned P(x^(1),...,x^(T))&=P(x^(1))\\times P(x^(2)|x^(1))\\times...\\times P(x^(T)|x^(T-1),...,x^(1))\\\\ &=\\prod_t=1^TP(x^(t)|x^(t-1),...,x^(1)) \\endaligned\\tag5.3 P(x(1),...,x(T))=P(x(1))×P(x(2)∣x(1))×...×P(x(T)∣x(T−1),...,x(1))=t=1∏TP(x(t)∣x(t−1),...,x(1))(5.3) -
n-gram模型:slides p.23-32
最经典的统计语言模型莫过于n-gram模型,即只考虑长度不超过n的单词序列的转移概率与分布概率,假定:
P ( x ( t + 1 ) ∣ x ( t ) , . . . , x ( 1 ) ) = P ( x ( t + 1 ) ∣ x ( t ) , . . . , x ( t − n + 2 ) ) = P ( x ( t + 1 ) , x ( t ) , . . . , x ( t − n + 2 ) ) P ( x ( t ) , . . . , x ( t − n + 2 ) ) ≈ count ( x ( t + 1 ) , x ( t ) , . . . , x ( t − n + 2 ) ) count ( x ( t ) , . . . , x ( t − n + 2 ) ) (5.4) \\beginaligned P(x^(t+1)|x^(t),...,x^(1))&=P(x^(t+1)|x^(t),...,x^(t-n+2))\\\\ &=\\fracP(x^(t+1),x^(t),...,x^(t-n+2))P(x^(t),...,x^(t-n+2))\\\\ &\\approx\\frac\\textcount(x^(t+1),x^(t),...,x^(t-n+2))\\textcount(x^(t),...,x^(t-n+2)) \\endaligned\\tag5.4 P(x(t+1)∣x(t),...,x(1))=P(x(t+1)∣x(t),...,x(t−n+2))=P(x(t),...,x(t−n+2))P(x(t+1),x(t),...,x(t−n+2))CS224N WINTER 2022RNN语言模型梯度消失与梯度爆炸(附Assignment3答案)CS224N WINTER 2022机器翻译注意力机制subword模型(附Assignment4答案)
CS224N WINTER 2022机器翻译注意力机制subword模型(附Assignment4答案)
CS224N WINTER 2022机器翻译注意力机制subword模型(附Assignment4答案)