自注意力机制Self-attention(2)
目录:
自注意力机制Self-attention(1)
自注意力机制Self-attention(2)
1 内容回顾
以b2b^2b2的计算过程为例来说明:
query: q1=Wqa1q^1 = W^q a^1q1=Wqa1, q2=Wqa2q^2 = W^q a^2q2=Wqa2, q3=Wqa3q^3 = W^q a^3q3=Wqa3, q4=Wqa4q^4 = W^q a^4q4=Wqa4;
key:k1=Wka1k^1 = W^k a^1k1=Wka1, k2=Wka2k^2 = W^k a^2k2=Wka2, k3=Wka3k^3 = W^k a^3k3=Wka3,k4=Wka4k^4 = W^k a^4k4=Wka4;
value:v1=Wva1v^1 = W^v a^1v1=Wva1, v2=Wva2v^2 = W^v a^2v2=Wva2, v3=Wva3v^3 = W^v a^3v3=Wva3, v4=Wva4v^4 = W^v a^4v4=Wva4;
attention score:α2,1=q2⋅k1\alpha_{2,1} = q^2 \cdot k^1α2,1=q2⋅k1, α2,2=q2⋅k2\alpha_{2,2} = q^2 \cdot k^2α2,2=q2⋅k2, α2,3=q2⋅k3\alpha_{2,3} = q^2 \cdot k^3α2,3=q2⋅k3, α2,4=q2⋅k4\alpha_{2,4} = q^2 \cdot k^4α2,4=q2⋅k4;
Soft-max:α2,1′=exp(α2,1)∑jexp(α2,j)\alpha_{2,1}^{'} = \frac{\exp(\alpha_{2,1})}{\sum_j \exp(\alpha_{2,j})}α2,1′=∑jexp(α2,j)exp(α2,1), α2,2′=exp(α2,2)∑jexp(α2,j)\alpha_{2,2}^{'} = \frac{\exp(\alpha_{2,2})}{\sum_j \exp(\alpha_{2,j})}α2,2′=∑jexp(α2,j)exp(α2,2), α2,3′=exp(α2,3)∑jexp(α2,j)\alpha_{2,3}^{'} = \frac{\exp(\alpha_{2,3})}{\sum_j \exp(\alpha_{2,j})}α2,3′=∑jexp(α2,j)exp(α2,3), α2,2′=exp(α2,4)∑jexp(α2,j)\alpha_{2,2}^{'} = \frac{\exp(\alpha_{2,4})}{\sum_j \exp(\alpha_{2,j})}α2,2′=∑jexp(α2,j)exp(α2,4);
b2=α2,1′v1+α2,2′v2+α2,3′v3+α2,4′v4=∑iα2,i′vib^2 = \alpha_{2,1}^{'}v^1 + \alpha_{2,2}^{'}v^2 + \alpha_{2,3}^{'}v^3 + \alpha_{2,4}^{'}v^4 = \sum_i \alpha^{'}_{2,i}v^ib2=α2,1′v1+α2,2′v2+α2,3′v3+α2,4′v4=∑iα2,i′vi.
问:a1,…,a4a^1, \dots, a^4a1,…,a4是什么?
答:就是输入的一组向量,如经过编码后的“I saw a saw”。
问:WqW^qWq, WkW^kWk, WvW^vWv是什么?
答:矩阵,需要通过学习得到。
下面通过矩阵操作进一步来回顾自注意力机制的计算过程。
查询矩阵:Q=WqIQ = W^q IQ=WqI;
关键字矩阵:K=WkIK = W^k IK=WkI;
值矩阵:V=WvIV = W^v IV=WvI.
注意力分数矩阵:A=KTQA = K^T QA=KTQ;
进行Soft-max:A′=softmax(A)A^{'} = softmax(A)A′=softmax(A);
O=VA′O = V A^{'}O=VA′
唯一需要学的参数是WqW^qWq, WkW^kWk, WvW^vWv。
自注意力机制Self-attention(2)相关推荐
- 深入理解注意力机制(Attention Mechanism)和Seq2Seq
学习本部分默认大家对RNN神经网络已经深入理解了,这是基础,同时理解什么是时间序列,尤其RNN的常用展开形式进行画图,这个必须理解了. 这篇文章整理有关注意力机制(Attention Mechanis ...
- 注意力机制(Attention Mechanism)-ECANet
引言 神经网络中的注意力机制(Attention Mechanism)是在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案.在神经网络学习中,一般而言模型的参 ...
- 在RNN模型中引入注意力机制(Attention)
此前的文章介绍过Seq2seq模型,并将其用于机器翻译.Seq2seq模型的一个问题在于随着输入句子越来越长,更早输入的单词就很大可能会被忘掉.于是,随着输入句子中单词数变多,翻译质量就会很快劣化.改 ...
- 注意力机制(Attention Mechanism)-SENet
引言 神经网络中的注意力机制(Attention Mechanism)是在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案.在神经网络学习中,一般而言模型的参 ...
- 深入理解深度学习——注意力机制(Attention Mechanism):带掩码的多头注意力(Masked Multi-head Attention)
分类目录:<深入理解深度学习>总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...
- 深入理解深度学习——注意力机制(Attention Mechanism):注意力评分函数(Attention Scoring Function)
分类目录:<深入理解深度学习>总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...
- 注意力机制~Attention Mechanism
目录 背景 1. Attention Function 2. Scaled Dot-Product Attention 3. Multi-attention --> Q, K=V 4. self ...
- 深度学习【注意力机制(Attention)原理和实现】
文章目录 一 Attention的原理和实现 1. Attention的介绍 2. Attenion的实现机制 2.1 Attention的实现过程 2.2 不同Attention的介绍 2.2.1 ...
- 注意力机制(Attention)
注意力机制分类 包括软注意力机制(Soft Attention)和硬注意力机制(Hard Attention). 硬注意力机制指随机选择某个信息作为需要注意的目标,是一个随机过程,不方便用梯度反向传播 ...
- 注意力机制(attention)学习记录(二)
前面曾经记录过注意力机制的学习过程,今天则是在学习的过程中对其有了其他的理解,便将其记录下来. Attention Model 概述 深度学习里的Attention model其实模拟的是人脑的注意力 ...
最新文章
- 数据挖掘实战(一):Kaggle竞赛经典案例剖析
- 关于凸优化的一些简单概念
- springboot中三种xxxx.setAttribute()并与python中flask作对应比较+容器的通俗理解
- 四、物理优化(1)范式化
- LeetCode 2017. 网格游戏(前缀和)
- 为什么我不推荐你盲目追求微服务?迟早要吃亏!
- Android 中的MVP 模式
- android field 类型,Gradle buildConfigField 使用Hashmap ArrayList 等类型
- c语言画bode图程序,根据上位机测得的Bode图的幅频特性,就能确定系统(或环节)的相频特性,试问这在什么系统时才能实现?...
- D365 ERP流程笔记
- p104规约测试软件,基于IEC60870-5-104规约的智能配电网终端设备测试方案及软件设计...
- 证明一维热传导方程为抛物型方程
- 小学认识计算机说课ppt,《认识计算机》说课稿.ppt
- Unity Application Block 1.0系列(5): 使用BuildUp让已存在对象实例也支持依赖注入
- 少时诵诗书所所所所所所所所所所所所所所所
- scikit-learn初级
- 错误: 找不到或无法加载主类 com.sxt.ceshi.Demo166
- python从txt导入数据到CSV文件末尾行丢失
- 我的武林秘籍设计模式之命令模式
- 中国电子学会2022年12月份青少年软件编程Scratch图形化等级考试试卷二级真题(含答案)
热门文章
- github java开源项目经验_3月份GitHub上最热门的Java开源项目
- VS2015上配置opencv2.4.11
- Java反射基础(二)--Fileds对象的使用
- 对象引用 String引用 基本类型引用 差别
- udp协议的服务器是哪种类型,UDP协议
- qtdesigner右击按钮没有 to slot_或添加“力感按钮”再升级,Apple Pencil会更“能打”?...
- ubuntu wifi固定ip_自制wifi遥控小车!ESP8266实践指南(二)
- 计算机背景为什么总是黑色,电脑背景变成黑色的了是为什么
- python db文件_python中查看.db文件中表格的名字及表格中的字段操作
- 低通滤波器算法实现_控制算法手记自抗扰控制的几点思考