超详细图解Self-Attention的那些事儿
Posted Charmve
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了超详细图解Self-Attention的那些事儿相关的知识,希望对你有一定的参考价值。
点击上方“迈微AI研习社”,选择“星标★”公众号
重磅干货,第一时间送达
作者丨伟大是熬出来的@知乎(已授权)
Self-Attention
是 Transformer
最核心的思想,最近几日重读论文,有了一些新的感想。由此写下本文与读者共勉。
笔者刚开始接触Self-Attention
时,最大的不理解的地方就是Q
K
V
三个矩阵以及我们常提起的Query查询向量等等,现在究其原因,应当是被高维繁复的矩阵运算难住了,没有真正理解矩阵运算的核心意义。因此,在本文开始之前,笔者首先总结一些基础知识,文中会重新提及这些知识蕴含的思想是怎样体现在模型中的。
一些基础知识
-
向量的内积是什么,如何计算,最重要的,其几何意义是什么?
-
一个矩阵 与其自身的转置相乘,得到的结果有什么意义?
1. 键值对注意力
这一节我们首先分析Transformer
中最核心的部分,我们从公式开始,将每一步都绘制成图,方便读
以上是关于超详细图解Self-Attention的那些事儿的主要内容,如果未能解决你的问题,请参考以下文章