深入理解再看Attention
Posted wx5cbd4315aefc1
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深入理解再看Attention相关的知识,希望对你有一定的参考价值。
文章目录
- 键值对注意力
- `Q` `K` `V`矩阵
-
Attention 的本质是什么
Attention(注意力)机制如果浅层的理解,跟他的名字非常匹配。他的核心逻辑就是「从关注全部到关注重点」。
Attention 机制很像人类看图片的逻辑,当我们看一张图片的时候,我们并没有看清图片的全部内容,而是将注意力集中在了图片的焦点上。大家看一下下面这张图:
我们一定会看清「锦江饭店」4个字,如下图:
但是我相信没人会意识到「锦江饭店」上面还有一串「电话号码」,也不会意识到「喜运来大酒家」,如下图:
所以,当我们看一张图片的时候,其实是这样的:
上面所说的,我们的视觉系统就是一种 Attention机制,将有限的注意力集中在重点信息上,从而节省资源,快速获得最有效的信息。
AI 领域的 Attention 机制
从这可以看出,Attention机制乃是核心。
Attention 的3大优点
- 参数少:模型复杂度跟 CNN、RNN 相比,复杂度更小,参数也更少。所以对算力的要求也就更小
- 速度快:Attention 解决了 RNN 不能并行计算的问题。Attention机制每一步计算不依赖于上一步的计算结果,因此可以和CNN一样并行处理。
- 效果好:在 Attention 机制引入之前,有一个问题大家一直很苦恼:长距离的信息会被弱化,就好像记忆能力弱的人,记不住过去的事情是一样的。而Attention 是挑重点,就算文本比较长,也能从中间抓住重点,不丢失重要的信息。下图红色的预期就是被挑出来的重点
- 我的这篇博文(2021李宏毅)机器学习-Self-attention讲解了Self-Attention的详细计算过程
下面开始深刻理解每一步的意义
深入理解
键值对注意力
键值对Attention最核心的公式如下。其实这一个公式中蕴含了很多个点,让我们逐个击破,从最核心的部分入手,细枝末节的部分会豁然开朗。
以上是关于深入理解再看Attention的主要内容,如果未能解决你的问题,请参考以下文章