LSTM已死,Transformer当立(LSTM is dead. Long Live Transformers! ):上

Posted 白马负金羁

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了LSTM已死,Transformer当立(LSTM is dead. Long Live Transformers! ):上相关的知识,希望对你有一定的参考价值。

回想一下在Seq2seq模型中,如何使用Attention。这里简要回顾一下【1】介绍的方法2(并以此为基础展开对Transformer的讨论)。

下图中包含一个encoder(左)和一个decoder(右)。对于decoder来说,给定一个输入,得到输出,如何进一步得到context vector 呢?

我们需要根据的相关性来计算权重

以上是关于LSTM已死,Transformer当立(LSTM is dead. Long Live Transformers! ):上的主要内容,如果未能解决你的问题,请参考以下文章

espnet中的transformer和LSTM语言模型对比实验

LSTM CNN Transformer各有各的好处

LSTM CNN Transformer各有各的好处

快速串联 RNN / LSTM / Attention / transformer / BERT / GPT

Transformer深至1000层还能稳定训练,微软实习生一作,LSTM之父转发

LSTM还没「死」!