注意力机制可以应用于前馈神经网络等结构吗？

Posted 2023-02-16

技术标签:

【中文标题】注意力机制可以应用于前馈神经网络等结构吗？【英文标题】：Can the attentional mechanism be applied to structures like feedforward neural networks? 【发布时间】：2020-01-28 23:37:53 【问题描述】：

最近学习了decoder-encoder网络和attention机制，发现很多论文和博客都在RNN网络上实现attention机制。

我对其他网络是否可以包含注意力机制感兴趣。例如，编码器是前馈神经网络，解码器是 RNN。没有时间序列的前馈神经网络可以使用注意力机制吗？如果可以的话，请给我一些建议。提前谢谢！

【问题讨论】：

【参考方案1】：

是的，可以将注意力/自我注意力/多头注意力机制用于其他前馈网络。也可以将注意力机制与基于 CNN 的架构一起使用，即在预测图像的另一部分时应该更多地关注图像的哪一部分。注意背后的邮件理念是在预测特定输出或我们如何关联句子中的单词以解决 NLP 问题时，赋予所有其他输入权重。您可以阅读真正著名的 Transformer 架构，它基于自注意力并且没有 RNN。要了解不同类型的注意力机制的要点，您可以阅读this blog。

【讨论】：

我已经尝试阅读变压器的核心，但有些部分我不明白。这个博客对我很有帮助！但是正如我在问题中提到的，前馈神经网络没有时间关系，那么在计算编码时使用什么部分来构造？【参考方案2】：

一般来说，前馈网络将特征视为独立的；卷积网络专注于相对位置和接近度； RNN 和 LSTM 具有内存限制，并且倾向于向一个方向阅读。

与此相反，注意力和转换器可以从句子的较远部分获取有关单词的上下文，无论是早于还是晚于单词出现，以便对信息进行编码以帮助我们理解单词及其在系统称为句子。

这里有一个很好的带有注意力机制的前馈网络模型：

https://arxiv.org/pdf/1512.08756.pdf

希望有用。

【讨论】：

我理解的“一个词从一个句子的遥远部分”实际上是注意力机制的主体是每个输入的不同权重，对吧？提问后也看到了这篇论文，给了我很大的启发。谢谢！是的，如果答案对您有帮助，请检查是否属实。也谢谢你。你读过这篇论文吗？我对这篇论文有点困惑，FNN 中的时间步长在哪里？而且正如我在问题中也提到的，前馈神经网络没有时间关系，那么在计算编码时使用什么部分来构造？是的，我以前读过。实际上，您有一个时间步长的顺序数据，您将其作为输入提供。 FNN 结构中没有时间关系，但整个架构结合了基于注意力的模型将捕获这种关系。 @Yilia.Zhang 这是否意味着在我添加注意力机制后，FNN 可以接受有时间步长的输入？还有一件事，注意力机制可以捕捉到我看不懂的时间关系，你能详细解释一下吗？

以上是关于注意力机制可以应用于前馈神经网络等结构吗？的主要内容，如果未能解决你的问题，请参考以下文章