CS224N WINTER 2022RNN语言模型梯度消失与梯度爆炸(附Assignment3答案)

Posted 囚生CY

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了CS224N WINTER 2022RNN语言模型梯度消失与梯度爆炸(附Assignment3答案)相关的知识,希望对你有一定的参考价值。

CS224N WINTER 2022(一)词向量(附Assignment1答案)
CS224N WINTER 2022(二)反向传播、神经网络、依存分析(附Assignment2答案)
CS224N WINTER 2022(三)RNN、语言模型、梯度消失与梯度爆炸(附Assignment3答案)
CS224N WINTER 2022(四)机器翻译、注意力机制、subword模型(附Assignment4答案)
CS224N WINTER 2022(五)Transformers详解(附Assignment5答案)

序言


文章目录


lecture 5 循环神经网络和语言模型

slides

[slides]

  1. 神经依存分析模型架构:slides p.4

    常规的依存分析方法涉及的类别特征是稀疏且不完整的,因此需要耗费大量时间用于特征运算;神经网络方法可以学习得到稠密的特征表示来更好地解决问题。

    这里再次提到lecture3notes部分提到的greedy Greedy Deterministic Transition-Based Parsing的例子,神经网络在给定状态三元组 ( σ , β , A ) (\\sigma,\\beta,A) (σ,β,A)的特征表示下,对下一次可能的转移(三种转移策略之一)进行预测。

    与Neural transition-based依存解析模型对应,也有Neural graph-based依存解析模型,它要预测的就是图节点(单词)之间的依存关系是否存在,有点类似证明图。

    ### notes

  2. 神经依存分析的评估指标:slides p.5

    左边的Gold是依存分析训练集的标注格式,包括词性标注的预测以及依赖关系的预测。

    看起来UAS是依赖关系的精确度,LAS是词性标注的精确度。(这么解释是合理的

    正好在看这部分又查阅到另一篇博客,感觉讲得比我清楚。

  3. 神经网络参数初始化:slides p.16

    这个在lecture3的式 ( 3.7 ) (3.7) (3.7)中也有提过一次,这里提到的初始化规则是:

    • 截距项初始化为零;

    • 权重矩阵的数值在 Uniform ( − r , r ) \\textUniform(-r,r) Uniform(r,r)的分布上采样,尽量确保初始值的方差满足下式:
      Var ( W i ) = 2 n i n + n o u t (5.1) \\textVar(W_i)=\\frac2n_\\rm in+n_\\rm out\\tag5.1 Var(Wi)=nin+nout2(5.1)
      其中 n i n n_\\rm in nin n o u t n_\\rm out nout分别表示 W i W_i Wi的fan-in与fan-out;

  4. 语言模型:slides p.19-22

    语言模型旨在给定单词序列的条件下,预测下一个单词是什么(输入法的联想):
    P ( x ( t + 1 ) ∣ x ( t ) , . . . , x ( 1 ) ) (5.2) P(x^(t+1)|x^(t),...,x^(1))\\tag5.2 P(x(t+1)x(t),...,x(1))(5.2)
    也可以看作是计算一段文本出现的概率(文本校正):
    P ( x ( 1 ) , . . . , x ( T ) ) = P ( x ( 1 ) ) × P ( x ( 2 ) ∣ x ( 1 ) ) × . . . × P ( x ( T ) ∣ x ( T − 1 ) , . . . , x ( 1 ) ) = ∏ t = 1 T P ( x ( t ) ∣ x ( t − 1 ) , . . . , x ( 1 ) ) (5.3) \\beginaligned P(x^(1),...,x^(T))&=P(x^(1))\\times P(x^(2)|x^(1))\\times...\\times P(x^(T)|x^(T-1),...,x^(1))\\\\ &=\\prod_t=1^TP(x^(t)|x^(t-1),...,x^(1)) \\endaligned\\tag5.3 P(x(1),...,x(T))=P(x(1))×P(x(2)x(1))×...×P(x(T)x(T1),...,x(1))=t=1TP(x(t)x(t1),...,x(1))(5.3)

  5. n-gram模型:slides p.23-32

    最经典的统计语言模型莫过于n-gram模型,即只考虑长度不超过n的单词序列的转移概率与分布概率,假定:
    P ( x ( t + 1 ) ∣ x ( t ) , . . . , x ( 1 ) ) = P ( x ( t + 1 ) ∣ x ( t ) , . . . , x ( t − n + 2 ) ) = P ( x ( t + 1 ) , x ( t ) , . . . , x ( t − n + 2 ) ) P ( x ( t ) , . . . , x ( t − n + 2 ) ) ≈ count ( x ( t + 1 ) , x ( t ) , . . . , x ( t − n + 2 ) ) count ( x ( t ) , . . . , x ( t − n + 2 ) ) (5.4) \\beginaligned P(x^(t+1)|x^(t),...,x^(1))&=P(x^(t+1)|x^(t),...,x^(t-n+2))\\\\ &=\\fracP(x^(t+1),x^(t),...,x^(t-n+2))P(x^(t),...,x^(t-n+2))\\\\ &\\approx\\frac\\textcount(x^(t+1),x^(t),...,x^(t-n+2))\\textcount(x^(t),...,x^(t-n+2)) \\endaligned\\tag5.4 P(x(t+1)x(t),...,x(1))=P(x(t+1)x(t),...,x(tn+2))=P(x(t),...,x(tn+2))P(x(t+1),x(t),...,x(tn+2))CS224N WINTER 2022RNN语言模型梯度消失与梯度爆炸(附Assignment3答案)

    CS224N WINTER 2022机器翻译注意力机制subword模型(附Assignment4答案)

    CS224N WINTER 2022机器翻译注意力机制subword模型(附Assignment4答案)

    CS224N WINTER 2022机器翻译注意力机制subword模型(附Assignment4答案)

    CS224N WINTER 2022词向量(附Assignment1答案)

    CS224N WINTER 2022词向量(附Assignment1答案)