目录:
自注意力机制Self-attention(1)
自注意力机制Self-attention(2)

1 内容回顾


以b2b^2b2的计算过程为例来说明:
query: q1=Wqa1q^1 = W^q a^1q1=Wqa1, q2=Wqa2q^2 = W^q a^2q2=Wqa2, q3=Wqa3q^3 = W^q a^3q3=Wqa3, q4=Wqa4q^4 = W^q a^4q4=Wqa4;
key:k1=Wka1k^1 = W^k a^1k1=Wka1, k2=Wka2k^2 = W^k a^2k2=Wka2, k3=Wka3k^3 = W^k a^3k3=Wka3,k4=Wka4k^4 = W^k a^4k4=Wka4;
value:v1=Wva1v^1 = W^v a^1v1=Wva1, v2=Wva2v^2 = W^v a^2v2=Wva2, v3=Wva3v^3 = W^v a^3v3=Wva3, v4=Wva4v^4 = W^v a^4v4=Wva4;
attention score:α2,1=q2⋅k1\alpha_{2,1} = q^2 \cdot k^1α2,1​=q2⋅k1, α2,2=q2⋅k2\alpha_{2,2} = q^2 \cdot k^2α2,2​=q2⋅k2, α2,3=q2⋅k3\alpha_{2,3} = q^2 \cdot k^3α2,3​=q2⋅k3, α2,4=q2⋅k4\alpha_{2,4} = q^2 \cdot k^4α2,4​=q2⋅k4;
Soft-max:α2,1′=exp⁡(α2,1)∑jexp⁡(α2,j)\alpha_{2,1}^{'} = \frac{\exp(\alpha_{2,1})}{\sum_j \exp(\alpha_{2,j})}α2,1′​=∑j​exp(α2,j​)exp(α2,1​)​, α2,2′=exp⁡(α2,2)∑jexp⁡(α2,j)\alpha_{2,2}^{'} = \frac{\exp(\alpha_{2,2})}{\sum_j \exp(\alpha_{2,j})}α2,2′​=∑j​exp(α2,j​)exp(α2,2​)​, α2,3′=exp⁡(α2,3)∑jexp⁡(α2,j)\alpha_{2,3}^{'} = \frac{\exp(\alpha_{2,3})}{\sum_j \exp(\alpha_{2,j})}α2,3′​=∑j​exp(α2,j​)exp(α2,3​)​, α2,2′=exp⁡(α2,4)∑jexp⁡(α2,j)\alpha_{2,2}^{'} = \frac{\exp(\alpha_{2,4})}{\sum_j \exp(\alpha_{2,j})}α2,2′​=∑j​exp(α2,j​)exp(α2,4​)​;
b2=α2,1′v1+α2,2′v2+α2,3′v3+α2,4′v4=∑iα2,i′vib^2 = \alpha_{2,1}^{'}v^1 + \alpha_{2,2}^{'}v^2 + \alpha_{2,3}^{'}v^3 + \alpha_{2,4}^{'}v^4 = \sum_i \alpha^{'}_{2,i}v^ib2=α2,1′​v1+α2,2′​v2+α2,3′​v3+α2,4′​v4=∑i​α2,i′​vi.
问:a1,…,a4a^1, \dots, a^4a1,…,a4是什么?
答:就是输入的一组向量,如经过编码后的“I saw a saw”。
问:WqW^qWq, WkW^kWk, WvW^vWv是什么?
答:矩阵,需要通过学习得到。

下面通过矩阵操作进一步来回顾自注意力机制的计算过程。

查询矩阵:Q=WqIQ = W^q IQ=WqI;
关键字矩阵:K=WkIK = W^k IK=WkI;
值矩阵:V=WvIV = W^v IV=WvI.

注意力分数矩阵:A=KTQA = K^T QA=KTQ;
进行Soft-max:A′=softmax(A)A^{'} = softmax(A)A′=softmax(A);



O=VA′O = V A^{'}O=VA′

唯一需要学的参数是WqW^qWq, WkW^kWk, WvW^vWv。

自注意力机制Self-attention(2)相关推荐

  1. 深入理解注意力机制(Attention Mechanism)和Seq2Seq

    学习本部分默认大家对RNN神经网络已经深入理解了,这是基础,同时理解什么是时间序列,尤其RNN的常用展开形式进行画图,这个必须理解了. 这篇文章整理有关注意力机制(Attention Mechanis ...

  2. 注意力机制(Attention Mechanism)-ECANet

    引言 神经网络中的注意力机制(Attention Mechanism)是在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案.在神经网络学习中,一般而言模型的参 ...

  3. 在RNN模型中引入注意力机制(Attention)

    此前的文章介绍过Seq2seq模型,并将其用于机器翻译.Seq2seq模型的一个问题在于随着输入句子越来越长,更早输入的单词就很大可能会被忘掉.于是,随着输入句子中单词数变多,翻译质量就会很快劣化.改 ...

  4. 注意力机制(Attention Mechanism)-SENet

    引言 神经网络中的注意力机制(Attention Mechanism)是在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案.在神经网络学习中,一般而言模型的参 ...

  5. 深入理解深度学习——注意力机制(Attention Mechanism):带掩码的多头注意力(Masked Multi-head Attention)

    分类目录:<深入理解深度学习>总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...

  6. 深入理解深度学习——注意力机制(Attention Mechanism):注意力评分函数(Attention Scoring Function)

    分类目录:<深入理解深度学习>总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...

  7. 注意力机制~Attention Mechanism

    目录 背景 1. Attention Function 2. Scaled Dot-Product Attention 3. Multi-attention --> Q, K=V 4. self ...

  8. 深度学习【注意力机制(Attention)原理和实现】

    文章目录 一 Attention的原理和实现 1. Attention的介绍 2. Attenion的实现机制 2.1 Attention的实现过程 2.2 不同Attention的介绍 2.2.1 ...

  9. 注意力机制(Attention)

    注意力机制分类 包括软注意力机制(Soft Attention)和硬注意力机制(Hard Attention). 硬注意力机制指随机选择某个信息作为需要注意的目标,是一个随机过程,不方便用梯度反向传播 ...

  10. 注意力机制(attention)学习记录(二)

    前面曾经记录过注意力机制的学习过程,今天则是在学习的过程中对其有了其他的理解,便将其记录下来. Attention Model 概述 深度学习里的Attention model其实模拟的是人脑的注意力 ...

最新文章

  1. 数据挖掘实战(一):Kaggle竞赛经典案例剖析
  2. 关于凸优化的一些简单概念
  3. springboot中三种xxxx.setAttribute()并与python中flask作对应比较+容器的通俗理解
  4. 四、物理优化(1)范式化
  5. LeetCode 2017. 网格游戏(前缀和)
  6. 为什么我不推荐你盲目追求微服务?迟早要吃亏!
  7. Android 中的MVP 模式
  8. android field 类型,Gradle buildConfigField 使用Hashmap ArrayList 等类型
  9. c语言画bode图程序,根据上位机测得的Bode图的幅频特性,就能确定系统(或环节)的相频特性,试问这在什么系统时才能实现?...
  10. D365 ERP流程笔记
  11. p104规约测试软件,基于IEC60870-5-104规约的智能配电网终端设备测试方案及软件设计...
  12. 证明一维热传导方程为抛物型方程
  13. 小学认识计算机说课ppt,《认识计算机》说课稿.ppt
  14. Unity Application Block 1.0系列(5): 使用BuildUp让已存在对象实例也支持依赖注入
  15. 少时诵诗书所所所所所所所所所所所所所所所
  16. scikit-learn初级
  17. 错误: 找不到或无法加载主类 com.sxt.ceshi.Demo166
  18. python从txt导入数据到CSV文件末尾行丢失
  19. 我的武林秘籍设计模式之命令模式
  20. 中国电子学会2022年12月份青少年软件编程Scratch图形化等级考试试卷二级真题(含答案)

热门文章

  1. github java开源项目经验_3月份GitHub上最热门的Java开源项目
  2. VS2015上配置opencv2.4.11
  3. Java反射基础(二)--Fileds对象的使用
  4. 对象引用 String引用 基本类型引用 差别
  5. udp协议的服务器是哪种类型,UDP协议
  6. qtdesigner右击按钮没有 to slot_或添加“力感按钮”再升级,Apple Pencil会更“能打”?...
  7. ubuntu wifi固定ip_自制wifi遥控小车!ESP8266实践指南(二)
  8. 计算机背景为什么总是黑色,电脑背景变成黑色的了是为什么
  9. python db文件_python中查看.db文件中表格的名字及表格中的字段操作
  10. 低通滤波器算法实现_控制算法手记自抗扰控制的几点思考