在RNN模型中引入注意力机制(Attention)

Posted 白马负金羁

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了在RNN模型中引入注意力机制(Attention)相关的知识,希望对你有一定的参考价值。

此前的文章介绍过Seq2seq模型,并将其用于机器翻译。Seq2seq模型的一个问题在于随着输入句子越来越长,更早输入的单词就很大可能会被忘掉。于是,随着输入句子中单词数变多,翻译质量就会很快劣化。改善此问题的一个方法就是引入注意力机制(Attention),这种方法最初在文献【1】中被提出。

下面是【1】中给出的一个评估机器翻译质量的图示,其中横轴是句子中单词的数量,纵轴是评价机器翻译质量的BLEU分值。可见,随着句子中单词的数量的增多,Seq2seq模型的机器翻译质量劣化得很快,但在引入了Attention之后,翻译质量可以得到很大改善。

总的来说,注意力机制有如下一些优点:

• Attention tremendously improves Seq2Seq model.
• With attention, Seq2Seq model does not forget source input.
• With attention, the decoder knows where to focus.

但我们也需明白,引入Attention会大幅增加模型的计算量!

具体来说,如何在RNN中引入Attention呢?结合之前介绍的Seq2seq模型,如下图所示,Encoder的输出是

以上是关于在RNN模型中引入注意力机制(Attention)的主要内容,如果未能解决你的问题,请参考以下文章

Attention和Transformer

深度学习Attention的原理分类及实现

深度学习Attention的原理分类及实现

Deep Learning基础--理解LSTM/RNN中的Attention机制

paper transformer - Attention Is All You Need - 跟李沐学AI笔记

Attention 机制