【转载】 关于Transformer中的position embedding

一文教你彻底理解Transformer中的positional encoding

Transformer中position embedding的劣势:
Transformer中的position embedding

对于视觉任务的positional encoding,在《Attention Augmented Convolutional Networks》一文中,提出了二维的relative positional embeddings,在保证平移不变性的同时,防止attention的置换等变性(permutation equivariant)。

实现二维的方法,是分别对x方向以及y方向提取相对位置信息,则某一个像素点i=(ix,iy)i=(i_x,i_y)i=(ix,iy)attends to 另一像素点j=(jx,jy)j=(j_x,j_y)j=(jx,jy),(i作query,与j的k计算attention)就等于:
li,j=qiTdkh(kj+rjx−iyW+rjy−iyH)l_{i,j}=\frac{q_i^T}{\sqrt{d_k^h}}(k_j+r_{j_x-i_y}^W+r_{j_y-i_y}^H)li,j=dkh

qiT(kj+rjxiyW+rjyiyH)
其中rjx−iyW,rjy−iyHr_{j_x-i_y}^W,r_{j_y-i_y}^HrjxiyW,rjyiyH分别是学到的在width和height方向上学习到的相对位置embedding,因此总的Attention 分布:
Oh=Softmax(QKT+SHrel+SWreldkh)VO_h=Softmax(\frac{QK^T+S^{rel}_H+S^{rel}_W}{\sqrt{d_k^h}})VOh=Softmax(dkh

QKT+SHrel+SWrel
)V

SHrel[i,j]=qiTrjy−iyH,SWrel[i,j]=qiTrjx−ixHS^{rel}_H[i,j]=q_i^Tr^H_{j_y-i_y},S^{rel}_W[i,j]=q_i^Tr^H_{j_x-i_x}SHrel[i,j]=qiTrjyiyH,SWrel[i,j]=qiTrjxixH

position embedding相关推荐

  1. Transformer的position embedding

    1. position embedding 位置编码 我们为什么要引入位置编呢?主要有以下几个原因: 文本是时序型数据,词与词之间的顺序关系往往影响整个句子的含义. transformer模型的sel ...

  2. 1.Transformer的word embedding、position embedding、编码器子注意力的掩码

    来源 B站up:deep_thoughts https://www.bilibili.com/video/BV1cP4y1V7GF/?spm_id_from=333.1007.top_right_ba ...

  3. Roformer:Enhanced Transformer with rotary position embedding

    Roformer:Enhanced Transformer with rotary position embedding Intorduction Method Experiment 代码实现 Con ...

  4. 文献阅读:RoFormer: Enhanced Transformer with Rotary Position Embedding

    文献阅读:RoFormer: Enhanced Transformer with Rotary Position Embedding 1. 工作简介 2. 常见位置编码方式 1. 绝对位置编码 1. ...

  5. TRS 中的position embedding

  6. Rotary Position Embedding (RoPE, 旋转式位置编码) | 原理讲解+torch代码实现

  7. 当推荐系统遇上多模态Embedding

    在微信视视频号推荐算法大赛中,给出来融合了OCR.ASR.图像.文字的多模态的内容理解特征向量Feed Embedding,共512维向量.对于给定的一定数量到访过微信视频号"热门推荐&qu ...

  8. 用万字长文聊一聊 Embedding 技术

    作者:qfan,腾讯 WXG 应用研究员 随着深度学习在工业届不断火热,Embedding 技术便作为"基本操作"广泛应用于推荐.广告.搜索等互联网核心领域中.Embedding ...

  9. 如何使用bert做word embedding

    调研目的:如何使用第三方库快速对数据进行预训练,得到embedding  知乎一: 请问如何用nlp预训练模型做word embedding ,如bert怎么提取出embedding? 作者(香港大学 ...

最新文章

  1. rpm安装的mysql如何数据迁移_【鲲鹏翱翔】数据库04-MySQL5.7.28移植安装指南-RPM包方式...
  2. 全国所有省市县地理坐标Json格式
  3. System.OutOfMemoryException
  4. 基础篇-verilog-单路串行ADC-TLC549
  5. SpringBoot 过滤器、拦截器、监听器对比及使用场景!
  6. 浅谈 Redis 与 MySQL 的耦合性以及利用管道完成 MySQL 到 Redis 的高效迁移
  7. Vmware虚拟机的linux与主机共享
  8. linux php 源码安装,Linux下PHP的源码安装与配置
  9. ubuntu五笔输入法安装_打造最强Windows 10微软拼音输入法 + 600万词库下载
  10. 使用Tor以加密方式发送BCH
  11. html改变按钮形状6,6个HTML5/CSS3按钮悬停边界旋绕动画
  12. linux c 获取文件大小
  13. python读取文件名存到list_python-read文件名并构建名称列表(python-read file names and build a namelist)...
  14. matlab根号下是多项式,多项式求根
  15. 【转】欧盟物联网研究战略路线图(4)
  16. 免费微信开通检测,有没有免费的微信开通检测工具呢
  17. 2G和3G网络制式上下行频率、速率比较
  18. 精密划片机:半导体材料在芯片生产制造过程中的关键性作用
  19. 全球与中国植物培养箱市场现状及未来发展趋势(2022)
  20. 关于一些不为人知的小秘密

热门文章

  1. ATM交换机与以太网交换机的区别
  2. 树莓派NAS搭建——基于OMV
  3. matlab 删除mat文件格式,matlab – 从.mat文件中删除变量
  4. rpad()函数:sql补齐字符
  5. Mysql_Note9
  6. 全球与中国覆铜陶瓷基板市场深度研究分析报告
  7. memcpy的效率问题
  8. 程序员会怎么打发业余时间?
  9. 掌握这些方法和技巧,你的自学才会更加有效率!
  10. ijkplayer 播放mpeg2video编码视频花屏