传统(多头注意力机制):


在余下部分不区分dk和dv,均使用d表示。P部分的计算需要把序列中每个位置的token都两两组合在余下部分不区分d_k和d_v,均使用d表示。\tiny P部分的计算需要把序列中每个位置的token都两两组合在余下部分不区分dk​和dv​,均使用d表示。P部分的计算需要把序列中每个位置的token都两两组合

新型:linformer中的多头注意力

两种注意力的对比图:


选择k<<n,以下的空间与时间计算的复杂度为O(nk)选择k<<n,以下的空间与时间计算的复杂度为 O(nk)选择k<<n,以下的空间与时间计算的复杂度为O(nk)

投影矩阵Ei,Fi∈Rn×k,KWiK&VWiV∈Rn×d投影矩阵E_i,F_i\in R^{n×k}, \\ KW_i^K\ \& \ VW_i^V\in R^{n×d} 投影矩阵Ei​,Fi​∈Rn×k,KWiK​ & VWiV​∈Rn×d

原因

Johnson–Lindenstrauss Lemma —对数降维到低秩定理。

定理1:self−attention是低秩的定理1:self-attention是低秩的定理1:self−attention是低秩的

既然P是低秩的,使用阶段的SVD近似实验发现,矩阵P中的大部分信息都可以由少量最大的奇异值来恢复。既然P是低秩的,使用阶段的SVD近似实验发现,矩阵 P 中的大部分信息都可以由少量最大的奇异值来恢复。既然P是低秩的,使用阶段的SVD近似实验发现,矩阵P中的大部分信息都可以由少量最大的奇异值来恢复。

定理2:k为O(d/ϵ2)时,可以以ϵ线性逼近定理2:k为 O(d /\epsilon^2) 时,可以以\epsilon 线性逼近定理2:k为O(d/ϵ2)时,可以以ϵ线性逼近


文章地址:Linformer: Self-Attention with Linear Complexity
王思农、李贝琳达、马甸·卡萨、韩芳、马浩
大型transformer模型在许多自然语言处理应用中取得了非凡的成功。然而,对于长序列,训练和部署这些模型的成本可能会高得令人望而却步,因为变压器的标准自我注意机制在序列长度方面使用O(n2)时间和空间。在本文中,我们证明了自我注意机制可以用低秩矩阵来近似。我们进一步利用这一发现提出了一种新的自我注意机制,该机制在时间和空间上将整体自我注意复杂性从O(n2)降低到O(n)。得到的线性Transformer,与标准变压器模型相匹配,同时具有更大的存储和具有时效性的性能。

投影后秩降低的问题《Low-Rank Bottleneck in Multi-head Attention Models》

由于标准self−attention使用softmax中eQKT有可能升秩,而投影后可能无法保持高秩,维持更多的信息。由于标准self-attention使用softmax中e^{QK^T}有可能升秩,而投影后可能无法保持高秩,维持更多的信息。由于标准self−attention使用softmax中eQKT有可能升秩,而投影后可能无法保持高秩,维持更多的信息。

更多相关:
Efficient Transformers: A Survey

Perfomer论文:RETHINKING ATTENTION WITH PERFORMERS
通过 Performer 架构再探注意力机制
Reformer: The Efficient Transformer局部敏感哈希LSH Attention 残差网络Residual Network
https://lilianweng.github.io/lil-log/2020/04/07/the-transformer-family.html
Transformers大家族——Efficient Transformers: A Survey

Johnson–Lindenstrauss Lemma(2)attention相关推荐

  1. Johnson–Lindenstrauss Lemma

    Johnson–Lindenstrauss引理 引理:给定ϵ>0\epsilon>0ϵ>0,随机向量模长\color{red}随机向量模长随机向量模长随n以指数收敛到1. 随机向量x ...

  2. 全民 Transformer (一): Attention 在深度学习中是如何发挥作用的

    <Attention 在深度学习中是如何发挥作用的:理解序列模型中的 Attention>    Transformer 的出现让 Deep Learning 出现了大一统的局面.Tran ...

  3. 注意力机制(CH10)——attention

    自用~~笔记~~~ 李沐<动手学习深度学习>pytorch版第十章笔记. 1. 注意力提示 查询.键.值 注意力机制与全连接层或汇聚层的区分:"是否包含自主性提示". ...

  4. 论文阅读笔记(11)--- Attention is all you need(Transformer)逐段精读

    根据李沐读论文学习一下这篇论文. Transformer Introduction Background Model Architecture Encoder and Decoder Stacks A ...

  5. 【DKN】(五)attention.py

    感觉还是挺简单,这里只是方便之后回来瞅瞅 import torch import torch.nn as nn import torch.nn.functional as Fclass Attenti ...

  6. (TTSR)Learning Texture Transformer Network for Image Super-Resolution

    中心提取: 1.该模型中提取Q.K.V的过程值得学习一下,他们使用的是:V自然就是参考图(Ref),用于辅助得到更好的纹理结果,Q是LR上采样图的特征(LR↑),K是参考图先下采样再上采样的特征(Re ...

  7. 2019腾讯广告算法大赛方案分享(冠军)

    写在前面 队伍介绍:哈尔滨工业大学二年级硕士生刘育源.中山大学微软亚洲研究院联合培养博士生郭达雅和京东算法工程师王贺. 本文将给出冠军完整方案,全文内容架构将依托于答辩PPT,具体细节也会结合代码进行 ...

  8. 新生儿(早产)婴儿护理行业调研报告 - 市场现状分析与发展前景预测

    新生儿(早产)婴儿护理市场的企业竞争态势 该报告涉及的主要国际市场参与者有Abbott Nutrition.Analogic.Atom Medical.Arjohuntleigh.Carefusion ...

  9. ACPI相关(5)- PCI热插拔(三)

    PCIE热插拔 PCI_E设备和PCI设备通过一种称作无意外(no surprises)方式实现热插拔.用户不允许在未告知系统软件的情况下插入或者移除一个PCI_E设备.用户告知软件将要插入或者移除一 ...

最新文章

  1. 分布式环境下,互斥性与幂等性问题,分析与解决思路
  2. 大数据可以帮助企业获得资金吗?
  3. 内核代号101 — 动手写自己的内核
  4. Linux nginx 会话保持(session)
  5. python2.7升级到python3.6注意事项
  6. AOP的XML架构、AOP的@AspectJ
  7. JS格式化数字保留两位小数点—toFixed()
  8. 网络管理 之 Fedora Core 网络配置工具system-config-network介绍
  9. 解决MyEclipse里Tomcat端口被占用而无法启动的情况
  10. android银行卡号扫描二维码,支付宝扫描银行卡号识别SDK
  11. Linux下的WPS安装
  12. 初识:心血管磁共振(CMR)成像
  13. 树莓派4支持多大tf卡_树莓派入门指南(Raspberry Pi)
  14. Android各版本对应Android API(知识累积)
  15. pdf.js在h5端访问图片服务器地址携带token防盗链无法读取问题,兼容安卓ios在线预览
  16. 关于Spring容器中定时器到时执行会出现两个线程同时执行的问题
  17. CAD转Excel,如何快速转换呢?
  18. PHP单例模式(Singleton Pattern)
  19. 基于工业5G路由器的智慧公厕无线联网解决方案
  20. java中有这个符号吗吗_Java中-符号是什么意思啊

热门文章

  1. java 基础小项目------外卖订餐系统
  2. 日语学习(谐音快速记忆)
  3. 龟兔赛跑,兔子每秒100米,乌龟每秒50米
  4. 网页幻灯片_清洁单元测试图案–演示幻灯片
  5. 《操作系统导论》第二十三章 VAX VMS虚拟内存系统
  6. 枚举+递归+DFS基础模板类算法总结
  7. 前台js下载和后台下载
  8. html让文字浮动到图片里面,【CSS小白】 问关于图片浮动之后文字环绕图片的问题...
  9. 全息(CSDN_0009_20220919)
  10. 第四章:动态分支预测