position embedding

2024-06-30 02:25:44

【转载】关于Transformer中的position embedding

一文教你彻底理解Transformer中的positional encoding

Transformer中position embedding的劣势：
Transformer中的position embedding

对于视觉任务的positional encoding，在《Attention Augmented Convolutional Networks》一文中，提出了二维的relative positional embeddings，在保证平移不变性的同时，防止attention的置换等变性（permutation equivariant）。

实现二维的方法，是分别对x方向以及y方向提取相对位置信息，则某一个像素点 $i=(i_x,i_y)$ attends to 另一像素点 $j=(j_x,j_y)$ ，（i作query，与j的k计算attention）就等于：
$li,j=qiTdkh(kj+rjx−iyW+rjy−iyH)l_{i,j}=\frac{q_i^T}{\sqrt{d_k^h}}(k_j+r_{j_x-i_y}^W+r_{j_y-i_y}^H)$

qiT(kj+rjx−iyW+rjy−iyH)
其中

r_{j_x-i_y}^W,r_{j_y-i_y}^H

分别是学到的在width和height方向上学习到的相对位置embedding，因此总的Attention 分布：

Oh=Softmax(QKT+SHrel+SWreldkh)VO_h=Softmax(\frac{QK^T+S^{rel}_H+S^{rel}_W}{\sqrt{d_k^h}})V

SHrel[i,j]=qiTrjy−iyH,SWrel[i,j]=qiTrjx−ixHS^{rel}_H[i,j]=q_i^Tr^H_{j_y-i_y},S^{rel}_W[i,j]=q_i^Tr^H_{j_x-i_x}

position embedding相关推荐

Transformer的position embedding
1. position embedding 位置编码我们为什么要引入位置编呢?主要有以下几个原因: 文本是时序型数据,词与词之间的顺序关系往往影响整个句子的含义. transformer模型的sel ...
1.Transformer的word embedding、position embedding、编码器子注意力的掩码
来源 B站up:deep_thoughts https://www.bilibili.com/video/BV1cP4y1V7GF/?spm_id_from=333.1007.top_right_ba ...
Roformer：Enhanced Transformer with rotary position embedding
Roformer:Enhanced Transformer with rotary position embedding Intorduction Method Experiment 代码实现 Con ...
文献阅读：RoFormer: Enhanced Transformer with Rotary Position Embedding
文献阅读:RoFormer: Enhanced Transformer with Rotary Position Embedding 1. 工作简介 2. 常见位置编码方式 1. 绝对位置编码 1. ...
TRS 中的position embedding
Rotary Position Embedding (RoPE, 旋转式位置编码) | 原理讲解+torch代码实现
当推荐系统遇上多模态Embedding
在微信视视频号推荐算法大赛中,给出来融合了OCR.ASR.图像.文字的多模态的内容理解特征向量Feed Embedding,共512维向量.对于给定的一定数量到访过微信视频号"热门推荐&qu ...
用万字长文聊一聊 Embedding 技术
作者:qfan,腾讯 WXG 应用研究员随着深度学习在工业届不断火热,Embedding 技术便作为"基本操作"广泛应用于推荐.广告.搜索等互联网核心领域中.Embedding ...
如何使用bert做word embedding
调研目的:如何使用第三方库快速对数据进行预训练,得到embedding 知乎一: 请问如何用nlp预训练模型做word embedding ,如bert怎么提取出embedding? 作者(香港大学 ...

最新文章

热门文章