Attention，Multi-head Attention--注意力，多头注意力详解

Attention

首先谈一谈attention。

注意力函数其实就是把一个query，一个key-value的集合映射成一个输出。其中query，key，value，output（Attention Value）都是向量。输出是values的加权求和，是query与当前key的相关程度。

Attention 函数的本质可以被描述为：

     一个查询（query）到一个系列（键key-值value）对的映射。

例如：计算A与B的attention，就是用A的Q与B的K-V来计算。

Scaled Dot-Product Attention（缩放点乘积注意力）（常用）

微观下的Attention

什么是Q（查询向量）、K（键向量）和V（值向量）？

每一个词向量，都有自己的QKV。通过矩阵变换而来，矩阵可以学习得到。这里Thinking为词向量X1，Machine为词向量X2。分别经过矩阵变换得到自己的QKV。

多头注意力机制

多头 Attention（Multi-head Attention）结构如下图。

微观下的多头Attention

这里说一下我的理解

八个头相当于八个不同的表征子空间，类似于apple拥有水果的含义，同时也有商标的含义，不同的含义由不同的表征子空间学习。让其他词的Q来和apple这个词不同组的K-V进行attention。再把所有的attention结果拼接起来，通过一个全连接层（矩阵变换）得到最终结果。

参考博客：
图解Transfomer
NLP中的attention

Attention，Multi-head Attention--注意力，多头注意力详解相关推荐

NLP中的Attention注意力机制+Transformer详解
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 作者: JayLou娄杰知乎链接:https://zhuanlan.zhihu. ...
【基础整理】attention：浅谈注意力机制与自注意力模型（附键值对注意力 + 多头注意力）
划水休息两天不看论文了 ~ 来重新复习一下基础qaq 以下讲解参考大名鼎鼎的 nndl 邱锡鹏 <神经网络与深度学习> 部分内容(详见第八章,注意力与外部记忆)是对于不太行的初学者也比较友 ...
【图结构】之图注意力网络GAT详解
作者:張張張張 github地址:https://github.com/zhanghekai [转载请注明出处,谢谢!] GATGATGAT源代码地址:https://github.com/Petar ...
【李宏毅】注意力机制+transformer详解
Transformer 背景关于RNN详解可以看这篇博客:循环神经网络 RNN一般被用来处理序列输入的,但是它有一个缺点就是不能并行化,后面一个神经元的输入要依赖与之前神经元的输出. 然后就有人提出 ...
Transformer和自注意力机制Self-Attention详解和时间复杂度计算+Image Transformer简介
Transformer 背景注意力机制已经在编码器解码器模型中广泛应用,极大提升了模型性能.我们为什么不能尝试完全抛开RNN.CNN等传统结构,直接尝试使用注意力机制来捕捉输入和输出之间的依赖呢? ...
注意力机制基本原理详解及应用
注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理.语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影.所以,了解注意力机制的工作原理对于关注深度学习技术发展的技 ...
《Attention Is All You Need》算法详解
该篇文章右谷歌大脑团队在17年提出,目的是解决对于NLP中使用RNN不能并行计算(详情参考<[译]理解LSTM(通俗易懂版)>),从而导致算法效率低的问题.该篇文章中的模型就是近几年大家到 ...
Coordinate Attention for Efficient Mobile Network Design论文详解（结合代码）
1.简介 Mobile Network设计的最新研究成果表明,通道注意力(例如,SE注意力)对于提升模型性能具有显著效果,但它们通常会忽略位置信息,而位置信息对于生成空间选择性attention ma ...
自注意力机制超级详解（Self-attention）
Attention ia all you need论文原文仅供自我学习使用 Self-attention想要解决的问题:目前input都是一个向量,输出可能是一个数值,一个类别,那么如果输入是一排向 ...
《The Frontiers of Memory and Attention in Deep Learning》图文结合详解深度学习Memory Attention
原文地址: https://yq.aliyun.com/articles/65356?spm=5176.100238.goodcont.2.Sy8Xe6 深度学习中的记忆前沿和吸引点作者 Steph ...

Attention，Multi-head Attention--注意力，多头注意力详解

Attention

微观下的Attention

微观下的多头Attention

Attention，Multi-head Attention--注意力，多头注意力详解相关推荐

最新文章

热门文章