Attention,Multi-head Attention--注意力,多头注意力详解
Attention
首先谈一谈attention。
注意力函数其实就是把一个query,一个key-value的集合映射成一个输出。其中query,key,value,output(Attention Value)都是向量。输出是values的加权求和,是query与当前key的相关程度。
Attention 函数的本质可以被描述为:
一个查询(query)到一个系列(键key-值value)对的映射。
例如:计算A与B的attention,就是用A的Q与B的K-V来计算。
Scaled Dot-Product Attention(缩放点乘积注意力)(常用)
微观下的Attention
什么是Q(查询向量)、K(键向量)和V(值向量)?
每一个词向量,都有自己的QKV。通过矩阵变换而来,矩阵可以学习得到。这里Thinking为词向量X1,Machine为词向量X2。分别经过矩阵变换得到自己的QKV。
多头注意力机制
多头 Attention(Multi-head Attention)结构如下图。
微观下的多头Attention
这里说一下我的理解
八个头相当于八个不同的表征子空间,类似于apple拥有水果的含义,同时也有商标的含义,不同的含义由不同的表征子空间学习。让其他词的Q来和apple这个词不同组的K-V进行attention。再把所有的attention结果拼接起来,通过一个全连接层(矩阵变换)得到最终结果。
参考博客:
图解Transfomer
NLP中的attention
Attention,Multi-head Attention--注意力,多头注意力详解相关推荐
- NLP中的Attention注意力机制+Transformer详解
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 作者: JayLou娄杰 知乎链接:https://zhuanlan.zhihu. ...
- 【基础整理】attention:浅谈注意力机制与自注意力模型(附键值对注意力 + 多头注意力)
划水休息两天不看论文了 ~ 来重新复习一下基础qaq 以下讲解参考大名鼎鼎的 nndl 邱锡鹏 <神经网络与深度学习> 部分内容(详见第八章,注意力与外部记忆)是对于不太行的初学者也比较友 ...
- 【图结构】之图注意力网络GAT详解
作者:張張張張 github地址:https://github.com/zhanghekai [转载请注明出处,谢谢!] GATGATGAT源代码地址:https://github.com/Petar ...
- 【李宏毅】注意力机制+transformer详解
Transformer 背景 关于RNN详解可以看这篇博客:循环神经网络 RNN一般被用来处理序列输入的,但是它有一个缺点就是不能并行化,后面一个神经元的输入要依赖与之前神经元的输出. 然后就有人提出 ...
- Transformer和自注意力机制Self-Attention详解和时间复杂度计算+Image Transformer简介
Transformer 背景 注意力机制已经在编码器解码器模型中广泛应用,极大提升了模型性能.我们为什么不能尝试完全抛开RNN.CNN等传统结构,直接尝试使用注意力机制来捕捉输入和输出之间的依赖呢? ...
- 注意力机制基本原理详解及应用
注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理.语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影.所以,了解注意力机制的工作原理对于关注深度学习技术发展的技 ...
- 《Attention Is All You Need》算法详解
该篇文章右谷歌大脑团队在17年提出,目的是解决对于NLP中使用RNN不能并行计算(详情参考<[译]理解LSTM(通俗易懂版)>),从而导致算法效率低的问题.该篇文章中的模型就是近几年大家到 ...
- Coordinate Attention for Efficient Mobile Network Design论文详解(结合代码)
1.简介 Mobile Network设计的最新研究成果表明,通道注意力(例如,SE注意力)对于提升模型性能具有显著效果,但它们通常会忽略位置信息,而位置信息对于生成空间选择性attention ma ...
- 自注意力机制超级详解(Self-attention)
Attention ia all you need论文原文 仅供自我学习使用 Self-attention想要解决的问题:目前input都是一个向量,输出可能是一个数值,一个类别,那么如果输入是一排向 ...
- 《The Frontiers of Memory and Attention in Deep Learning》 图文结合详解深度学习Memory Attention
原文地址: https://yq.aliyun.com/articles/65356?spm=5176.100238.goodcont.2.Sy8Xe6 深度学习中的记忆前沿和吸引点 作者 Steph ...
最新文章
- 7 成中国职场人厌班,我们为什么会陷入职业倦怠?
- python后端开发工程师面试题
- 一个简单的你好,世界! 使用 Boost.MPI 消息传递的示例
- java的oauth2.0_[转]Java的oauth2.0 服务端与客户端的实现
- 华科计算机考研复试机试【零散大汇总】
- 关于结构体数据的读写
- 计算机组成原理实验基本运算器,计算机组成原理运算器实验-20210611075033.docx-原创力文档...
- mac系统中怎么把显示在桌面上的磁盘图标取消掉?
- Android APP 全局字体替换-思源黑体
- 怎么批量修改文件后缀名?
- 国际信息安全管理标准体系--BS7799
- 手机通过外网(HFS)访问电脑文件
- 关于鸡兔同笼的python程序_python解决鸡兔同笼问题的方法
- STM32, ADS1115
- 关于未来几年的发展,闰土有话要说
- GROMACS .mdp 选项翻译及笔记
- UI设计是什么要学习哪些软件
- 常见文件头 文件幻数
- 阿里云5天学习感悟与案例分享
- JSON数据 与 JSON数据的使用
热门文章
- wget:无法解析主机地址...
- JavaGUI 10 初识 Swing 类库
- 微信小程序:微信公众号关联小程序步骤
- Typora+PicGo+腾讯云COS实现图片上传功能
- 赔付 1.5 亿元!七天七夜,微盟被删除的数据全面找回
- 践行新时代使命担当 百分点科技苏萌获评新时代企业家精神践行者
- [C语言] [试题详解] 求1000之内的所有 完数
- macOS Sonoma 14 beta 3 (23A5286g) ISO、IPSW、PKG 下载
- 读书笔记:《管理的众神》
- python字符串正则替换_Python用正则表达式进行字符串替换方法