Johnson–Lindenstrauss Lemma（2）attention

传统（多头注意力机制）：

在余下部分不区分dk和dv，均使用d表示。P部分的计算需要把序列中每个位置的token都两两组合在余下部分不区分d_k和d_v，均使用d表示。\tiny P部分的计算需要把序列中每个位置的token都两两组合在余下部分不区分dk和dv，均使用d表示。P部分的计算需要把序列中每个位置的token都两两组合

新型：linformer中的多头注意力

两种注意力的对比图：

选择k<<n,以下的空间与时间计算的复杂度为O(nk)选择k<<n,以下的空间与时间计算的复杂度为 O(nk)选择k<<n,以下的空间与时间计算的复杂度为O(nk)

投影矩阵Ei,Fi∈Rn×k,KWiK&VWiV∈Rn×d投影矩阵E_i,F_i\in R^{n×k}, \\ KW_i^K\ \& \ VW_i^V\in R^{n×d} 投影矩阵Ei,Fi∈Rn×k,KWiK & VWiV∈Rn×d

原因

Johnson–Lindenstrauss Lemma —对数降维到低秩定理。

定理1:self−attention是低秩的定理1:self-attention是低秩的定理1:self−attention是低秩的

既然P是低秩的，使用阶段的SVD近似实验发现，矩阵P中的大部分信息都可以由少量最大的奇异值来恢复。既然P是低秩的，使用阶段的SVD近似实验发现，矩阵 P 中的大部分信息都可以由少量最大的奇异值来恢复。既然P是低秩的，使用阶段的SVD近似实验发现，矩阵P中的大部分信息都可以由少量最大的奇异值来恢复。

定理2:k为O(d/ϵ2)时，可以以ϵ线性逼近定理2:k为 O(d /\epsilon^2) 时，可以以\epsilon 线性逼近定理2:k为O(d/ϵ2)时，可以以ϵ线性逼近

文章地址：Linformer: Self-Attention with Linear Complexity
王思农、李贝琳达、马甸·卡萨、韩芳、马浩
大型transformer模型在许多自然语言处理应用中取得了非凡的成功。然而，对于长序列，训练和部署这些模型的成本可能会高得令人望而却步，因为变压器的标准自我注意机制在序列长度方面使用O（n2）时间和空间。在本文中，我们证明了自我注意机制可以用低秩矩阵来近似。我们进一步利用这一发现提出了一种新的自我注意机制，该机制在时间和空间上将整体自我注意复杂性从O（n2）降低到O（n）。得到的线性Transformer，与标准变压器模型相匹配，同时具有更大的存储和具有时效性的性能。

投影后秩降低的问题《Low-Rank Bottleneck in Multi-head Attention Models》

由于标准self−attention使用softmax中eQKT有可能升秩，而投影后可能无法保持高秩，维持更多的信息。由于标准self-attention使用softmax中e^{QK^T}有可能升秩，而投影后可能无法保持高秩，维持更多的信息。由于标准self−attention使用softmax中eQKT有可能升秩，而投影后可能无法保持高秩，维持更多的信息。

更多相关：
Efficient Transformers: A Survey

Perfomer论文:RETHINKING ATTENTION WITH PERFORMERS
通过 Performer 架构再探注意力机制
Reformer: The Efficient Transformer局部敏感哈希LSH Attention 残差网络Residual Network
https://lilianweng.github.io/lil-log/2020/04/07/the-transformer-family.html
Transformers大家族——Efficient Transformers: A Survey