超详细图解Self-Attention的那些事儿

Posted Charmve

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了超详细图解Self-Attention的那些事儿相关的知识,希望对你有一定的参考价值。

点击上方“迈微AI研习社”,选择“星标★”公众号

重磅干货,第一时间送达

作者丨伟大是熬出来的@知乎(已授权)

Self-AttentionTransformer最核心的思想,最近几日重读论文,有了一些新的感想。由此写下本文与读者共勉。

笔者刚开始接触Self-Attention时,最大的不理解的地方就是Q K V三个矩阵以及我们常提起的Query查询向量等等,现在究其原因,应当是被高维繁复的矩阵运算难住了,没有真正理解矩阵运算的核心意义。因此,在本文开始之前,笔者首先总结一些基础知识,文中会重新提及这些知识蕴含的思想是怎样体现在模型中的。

一些基础知识

  1. 向量的内积是什么,如何计算,最重要的,其几何意义是什么?

  2. 一个矩阵 与其自身的转置相乘,得到的结果有什么意义?

1. 键值对注意力

这一节我们首先分析Transformer中最核心的部分,我们从公式开始,将每一步都绘制成图,方便读

开发者涨薪指南 48位大咖的思考法则、工作方式、逻辑体系

以上是关于超详细图解Self-Attention的那些事儿的主要内容,如果未能解决你的问题,请参考以下文章

动画图解 socket 缓冲区的那些事儿

超深度解析 Linux I/O 的那些事儿

【HDFS】超详细讲解Erasure Coding-- EC架构及图解相关核心代码。

Spring循环依赖那些事儿(含Spring详细流程图)

centos8安装图解(超详细教程)

超大超详细图解,让你掌握Spark memeoryStore内存管理的精髓