Attention

首先谈一谈attention

注意力函数其实就是把一个query,一个key-value的集合映射成一个输出。其中query,key,value,output(Attention Value)都是向量。输出是values的加权求和,是query与当前key的相关程度。

Attention 函数的本质可以被描述为:

     一个查询(query)到一个系列(键key-值value)对的映射。

例如:计算A与B的attention,就是用A的Q与B的K-V来计算。

Scaled Dot-Product Attention(缩放点乘积注意力)(常用)

微观下的Attention

什么是Q(查询向量)、K(键向量)和V(值向量)?

每一个词向量,都有自己的QKV。通过矩阵变换而来,矩阵可以学习得到。这里Thinking为词向量X1,Machine为词向量X2。分别经过矩阵变换得到自己的QKV。

多头注意力机制

多头 Attention(Multi-head Attention)结构如下图。

微观下的多头Attention

这里说一下我的理解

八个头相当于八个不同的表征子空间,类似于apple拥有水果的含义,同时也有商标的含义,不同的含义由不同的表征子空间学习。让其他词的Q来和apple这个词不同组的K-V进行attention。再把所有的attention结果拼接起来,通过一个全连接层(矩阵变换)得到最终结果。

参考博客:
图解Transfomer
NLP中的attention

Attention,Multi-head Attention--注意力,多头注意力详解相关推荐

  1. NLP中的Attention注意力机制+Transformer详解

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 作者: JayLou娄杰 知乎链接:https://zhuanlan.zhihu. ...

  2. 【基础整理】attention:浅谈注意力机制与自注意力模型(附键值对注意力 + 多头注意力)

    划水休息两天不看论文了 ~ 来重新复习一下基础qaq 以下讲解参考大名鼎鼎的 nndl 邱锡鹏 <神经网络与深度学习> 部分内容(详见第八章,注意力与外部记忆)是对于不太行的初学者也比较友 ...

  3. 【图结构】之图注意力网络GAT详解

    作者:張張張張 github地址:https://github.com/zhanghekai [转载请注明出处,谢谢!] GATGATGAT源代码地址:https://github.com/Petar ...

  4. 【李宏毅】注意力机制+transformer详解

    Transformer 背景 关于RNN详解可以看这篇博客:循环神经网络 RNN一般被用来处理序列输入的,但是它有一个缺点就是不能并行化,后面一个神经元的输入要依赖与之前神经元的输出. 然后就有人提出 ...

  5. Transformer和自注意力机制Self-Attention详解和时间复杂度计算+Image Transformer简介

    Transformer 背景 注意力机制已经在编码器解码器模型中广泛应用,极大提升了模型性能.我们为什么不能尝试完全抛开RNN.CNN等传统结构,直接尝试使用注意力机制来捕捉输入和输出之间的依赖呢? ...

  6. 注意力机制基本原理详解及应用

    注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理.语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影.所以,了解注意力机制的工作原理对于关注深度学习技术发展的技 ...

  7. 《Attention Is All You Need》算法详解

    该篇文章右谷歌大脑团队在17年提出,目的是解决对于NLP中使用RNN不能并行计算(详情参考<[译]理解LSTM(通俗易懂版)>),从而导致算法效率低的问题.该篇文章中的模型就是近几年大家到 ...

  8. Coordinate Attention for Efficient Mobile Network Design论文详解(结合代码)

    1.简介 Mobile Network设计的最新研究成果表明,通道注意力(例如,SE注意力)对于提升模型性能具有显著效果,但它们通常会忽略位置信息,而位置信息对于生成空间选择性attention ma ...

  9. 自注意力机制超级详解(Self-attention)

    Attention ia all you need论文原文 仅供自我学习使用 Self-attention想要解决的问题:目前input都是一个向量,输出可能是一个数值,一个类别,那么如果输入是一排向 ...

  10. 《The Frontiers of Memory and Attention in Deep Learning》 图文结合详解深度学习Memory Attention

    原文地址: https://yq.aliyun.com/articles/65356?spm=5176.100238.goodcont.2.Sy8Xe6 深度学习中的记忆前沿和吸引点 作者 Steph ...

最新文章

  1. 7 成中国职场人厌班,我们为什么会陷入职业倦怠?
  2. python后端开发工程师面试题
  3. 一个简单的你好,世界! 使用 Boost.MPI 消息传递的示例
  4. java的oauth2.0_[转]Java的oauth2.0 服务端与客户端的实现
  5. 华科计算机考研复试机试【零散大汇总】
  6. 关于结构体数据的读写
  7. 计算机组成原理实验基本运算器,计算机组成原理运算器实验-20210611075033.docx-原创力文档...
  8. mac系统中怎么把显示在桌面上的磁盘图标取消掉?
  9. Android APP 全局字体替换-思源黑体
  10. 怎么批量修改文件后缀名?
  11. 国际信息安全管理标准体系--BS7799
  12. 手机通过外网(HFS)访问电脑文件
  13. 关于鸡兔同笼的python程序_python解决鸡兔同笼问题的方法
  14. STM32, ADS1115
  15. 关于未来几年的发展,闰土有话要说
  16. GROMACS .mdp 选项翻译及笔记
  17. UI设计是什么要学习哪些软件
  18. 常见文件头 文件幻数
  19. 阿里云5天学习感悟与案例分享
  20. JSON数据 与 JSON数据的使用

热门文章

  1. wget:无法解析主机地址...
  2. JavaGUI 10 初识 Swing 类库
  3. 微信小程序:微信公众号关联小程序步骤
  4. Typora+PicGo+腾讯云COS实现图片上传功能
  5. 赔付 1.5 亿元!七天七夜,微盟被删除的数据全面找回
  6. 践行新时代使命担当 百分点科技苏萌获评新时代企业家精神践行者
  7. [C语言] [试题详解] 求1000之内的所有 完数
  8. macOS Sonoma 14 beta 3 (23A5286g) ISO、IPSW、PKG 下载
  9. 读书笔记:《管理的众神》
  10. python字符串正则替换_Python用正则表达式进行字符串替换方法