HAT：Overcoming Catastrophic Forgetting with Hard Attention to the Task

采用注意力机制：在损失处添加正则化+路径，反向传播+嵌入梯度补偿+剪枝（二进制掩码）

Abstract

当一个神经网络在后续任务训练后丢失了在先前任务中学习的信息时，灾难性遗忘就会发生。这个问题仍然是具有顺序学习能力的人工智能系统的一个障碍。
本文提出了一种基于任务的硬注意机制，该机制在不影响当前任务学习的情况下，保留了先前任务的信息。通过随机梯度下降，在每个任务中同时学习一个硬注意力掩模，并且利用先前的掩模来调节这种学习。
我们表明，所提出的机制对于减少灾难性遗忘是有效的，将遗忘率降低了45%到80%。我们还表明，它对不同的超参数选择是鲁棒的，并且它提供了许多监控功能。
该方法的特点是可以控制所学知识的稳定性和紧凑性，我们认为这也使其对在线学习或网络压缩应用具有吸引力。

1. Introduction

随着人们对神经网络的兴趣重新燃起，旧的问题再次出现，特别是如果解决方案仍然开放的话。所谓的灾难性遗忘或灾难性干扰问题就是这种情况。本质上，灾难性遗忘对应于神经网络从新的或不同的信息中学习时忘记所学的倾向。例如，当一个网络首先被训练在一个任务上收敛，然后在第二个任务上训练时，它忘记了如何执行第一个任务。

克服灾难性遗忘是迈向更通用人工智能系统的重要一步。这种系统应该能够无缝地记住不同的任务，并按照终身学习的模式依次学习它们。除了在生物学上更合理，还有许多实际情况需要一个顺序学习系统。例如，机器人可能无法在遇到新的对象/任务时从头重新训练其底层模型。在积累了大量的对象/任务及其对应的信息之后，大规模地执行并发或多任务学习可能成本过高。

存储以前的信息并使用它来重新训练模型是克服灾难性遗忘的最早尝试之一；一个名为“排练”的策略。在这种情况下，内存模块的使用一直是研究的主题。然而，由于效率和容量的限制，也引入了无记忆方法，从所谓的“伪排练”开始。这种方法在迁移学习情境中取得了一些成功，在迁移学习情境中，人们需要在学习目标任务后保持对源任务的一定准确性。在伪预演类别中，我们也可以考虑最近用生成网络替代记忆模块的方法(V . enkatesan等人，2017；Shin等人，2017年；Nguyen等人，2017年)。除了为一系列任务或某些类型的数据训练一个生成网络的困难之外，预演和伪预演方法都意味着某种形式的并行学习，也就是说，必须重新处理“旧的”实例来学习新的任务。

克服灾难性遗忘的另一个流行策略是减少表征重叠。这可以在输出、中间和输入水平上完成。一个干净的软方式是通过所谓的“结构正则化”，要么出现在损失函数中或在单独的合并步骤。通过这些策略，人们试图防止对以前的任务很重要的重量的重大变化。为每个任务分配特定的网络子部分是减少表征重叠的另一种方法。代表性重叠的主要折衷是在任务之间有效地分配网络容量，同时保持重要的权重和重用以前的知识。

在本文中，我们提出了**一种基于任务的硬注意机制，该机制在不影响新任务学习的情况下保持来自先前任务的信息。在学习任务的同时，我们还利用反向传播和小批随机梯度下降(SGD)方法，通过门控任务嵌入来学习近二值注意向量。先前任务（前一个任务）的注意力向量用于定义一个掩码，并约束当前任务上网络权重的更新。由于掩码几乎是二进制的，所以一部分权重保持不变，而其余部分则适应新任务。我们把我们的方法称为对任务的高度关注。**我们在图像分类的背景下评估HA T，使用我们认为是高标准的评估协议:我们考虑代表不同任务的8个公开可用数据集的随机序列，并与十几个最近的竞争方法进行比较。我们在4个不同的实验装置中显示了良好的结果，将电流速率降低了45%至80%。我们还展示了对超参数的鲁棒性，并展示了许多监控功能。

代码：https://github.com/joansj/hat。

2. Putting Hard Attention to the Task

2.1. Motivation

驱动所提出的方法的主要观察是任务定义，或者更实际地说，它的标识符，对于网络的操作是至关重要的。考虑区分鸟和狗图像的任务。当训练网络这样做时，它可能会学习一些中间特性集。如果第二个任务是使用相同的数据来区分棕色和黑色动物(假设它只包含棕色或黑色的鸟和狗)，网络可能会学习一组新的特征，其中一些与第一组没有太多重叠。因此，如果两个任务中的训练数据相同，一个重要的区别应该是任务描述或标识符。我们的意图是学习使用任务标识符来调节每一层，并在以后利用这种学习的调节来防止忘记以前的任务。

2.2. Architecture

为了适应当前的任务t，我们采用了分层的注意力机制(图1)。输出层l，hl ，元素相乘h’

（σ是sigmoid函数）-sigmoid门—单个单元不是模块 e是任务嵌入 s正的标度参数
然而，与普通注意机制的一个重要区别是，它不是形成一个概率分布，a是一个单层任务嵌入e的门控。

Eq. 1的门控机制背后的想法是形成坚硬的、可能是二元的注意力屏蔽，作为“抑制性突触”，从而激活或停止每一层单位的输出。
通过这种方式，与PathNet 类似，我们动态地创建和销毁跨层的路径，这些路径可以在学习新任务时保存下来。然而，与PathNet不同的是，HA T中的路径不是基于模块，而是基于单个单元。因此，我们不需要预先分配模块大小，也不需要设置每个任务的最大模块数。在一定的网络结构下，HAT学习并自动为单个单元路径维数，从而最终影响单个层的权重。HAT不是使用遗传算法在单独的阶段学习路径，而是使用反向传播和SGD与网络的其他部分一起学习路径。

2.3. Network Training

为了在学习新任务时保留在以前任务中学习到的信息，我们根据所有以前任务的累积注意力来调整梯度。为了获得一个累积的注意力向量，在学习任务t和获得at之后，我们递归地计算

这保留了对先前任务很重要的单元的注意力值，允许它们为未来任务的训练设定条件。

为了调节任务t + 1的训练，我们修改梯度G1,ij 层l，与当前和先前层中累积注意力的最小值相反:

i–对应输出l层 j–对应输出l-1层

注意，有了Eq.2、我们创建掩码来防止对先前任务很重要的权重的大的更新。这类似于PackNet 的方法，该方法在HA T的开发过程中公开。在PackNet中，经过启发式选择和再训练，找到二进制掩码，随后应用于冻结相应的网络权重。
在这方面，HAT与PackNet有三个重要的区别。
（1）我们的屏蔽是基于单位的，基于权重的屏蔽会自动从这些屏蔽中派生出来。所以HAT也是存储和维护一个轻量级的结构。
（2）我们的掩模是习得的，而不是启发式的或规则驱动的。因此，高可用性测试不需要预先分配压缩比，也不需要通过后训练步骤来确定参数的重要性。
（3）我们的掩码不一定是二进制的，允许介于0和1之间的中间值。如果我们想以一些遗忘为代价，重新使用权重来学习其他任务，或者我们想以更在线的模式工作，忘记最旧的任务来记住新的任务，这可能会很有用。

2.4. Hard Attention Training

为了获得完全二元的注意力向量a lt（原因：注意力向量机制a允许介于在0-1之间），可以使用单位阶跃函数作为门。然而，因为我们想用反向传播来训练嵌入elt(图1)，所以我们更喜欢可微函数。为了构造一个允许梯度流动的伪阶跃函数，我们使用了一个具有正比例参数的sigmoid。引入这种缩放是为了控制伪阶跃函数的偏振或“硬度”以及结果输出注意力向量机制alt。
我们的策略是在训练期间退火s，引入梯度流，并在测试期间使用s =smax设置 smax>=1这样Eq。1近似于单位阶跃函数。注意，当s → ∞时，我们得到l，i→ {0，1}，当s → 0时，我们得到l，a i→ 1/2。我们将使用后者来开始一个所有网络单元同等活跃的训练时期，并在该时期内逐步使它们极化。

训练时期，递增线性退火s

其中b = 1。。。B是批次索引，B是一个时期内批次的总数。
超参数smax≥ 1控制学习任务的稳定性，或者换句话说，控制网络单元的可塑性。
如果smax接近1，门控机制像常规sigmoid函数一样运行，而不是特别强制对at l进行二值化。这为单元提供了可塑性，模型能够在反向传播阶段(Sec)忘记以前的任务。.或者，如果数量较大，门控机制开始作为单位阶跃函数运行。这为先前学习的任务提供了稳定性，防止了反向传播阶段相应权重的变化。

为啥 “这为单元提供了可塑性，模型能够在反向传播阶段(Sec)忘记以前的任务？”

2.5. Embedding Gradient Compensation

在初步分析中，我们观察到嵌入集的变化不大，梯度的大小在权重上是弱的。经过一番调查,我们意识到问题的主要部分是由于引入退火方案(Eq.3)。说明退火方案的对嵌入梯度et l有影响，考虑一个均匀分布嵌入et l,穿过标准sigmoid的有效范围，et l,∈[- 6，6]。
如果我们不进行任何退火并设置s = 1，我们在一个epoch之后得到一个累积梯度，它具有钟状形状，并跨越整个s型范围(图2)。相反，如果我们设置s = smax，我们得到一个更大的幅度，但是在一个更低的范围内(et l,i∈[−1,1]在图2中)。
s的退火版本产生了一个介于两者之间的分布，其**范围小于s = 1，幅度小于s = smax。**理想的情况是具有较宽的范围，理想的是跨越s = 1的范围，以及较大的累积幅度，理想的是当s = smax时与有源区中的幅度成比例。为了实现这一点，我们在更新et l之前应用梯度补偿。

本质上，嵌入梯度补偿的思想是消除退火sigmoid的影响，并人为地施加上一段中所述的期望范围和幅度。为此，我们将梯度Q1除以退火sigmoid的导数，再乘以所需的补偿，

这个补偿不知道怎么对EQ.3求导得到的

2.6. Promoting Low Capacity Usage

重要的是要意识到艰难的注意力 “激活的”,也就是说,在l,我→1,直接决定了单位,将致力于任务t。因此,为了有一些模型能力预留给未来的任务,我们促进注意力的稀疏向量={1。。l必备−1}。为此，我们在损失函数L中添加一个正则化项，它考虑到任务t−1,a
重要的是要认识到，在a lt处的硬注意值是“活动的”，也就是说，在a lt→1处，直接确定将专用于任务t的单元。因此，为了给将来的任务保留一些模型容量，我们提高了注意向量集At= {at，1 。。。。L1 }处。为此，我们在损失函数L中添加了一个正则化项，该正则化项考虑了任务t -1之前的累积注意力向量集。。。a < t1 }:

注意Eq.5对应于At上的加权和归一化L1正则化。累积过去的任务A< t为当前任务定义一个权重，这样如果a< tl,i→1，那么在a lti处接收到接近于0的权重，反之亦然。
这就排除了在前一个任务中出现的单元，使它们在当前任务中不再被重用。超参数 c≥0 控制每项任务花费的容量(Eq。4).在某种意义上，它可以被认为是一个可压缩常数，影响学习模型的紧凑性:c越高，活跃注意力值的al ti数量越少，并且得到的网络越稀疏。我们为所有任务全局设置c，并让HAT适应每个单独任务的最佳压缩。

Y oon等人(2018)还考虑了在灾难性遗忘的情况下使用L1正则化来提高网络稀疏性，该方法在开发HAT时引入了动态可扩展网络(DEN)。在DEN中，普通L1正则化与一组相当大的启发式方法(如L2转移、阈值处理和“语义漂移”的度量)相结合，并应用于所谓的“选择性再训练”阶段的所有网络权重。在HA T中，我们在注意力值上使用注意力加权L1正则化，这是该方法的单个训练阶段的独立部分。HA T不考虑网络权重，而是把重点放在单位注意力上。

3. Related Work

弹性重量固结(EWC)和突触智能(SI)的方法在损失函数中添加一个“软”结构正则化术语，以阻止权重的改变，因为权重对之前的任务很重要。HAT使用“硬”结构正则化，并且在损失函数和梯度大小上都显式地这样做。EWC度量网络训练后权重的重要性，SI和HA T同时计算权重对网络训练的重要性。EWC和SI使用特定的配方，HAT学习注意屏蔽机制。增量矩匹配(IMM;Lee等人，2017)是EWC的演变，在学习新任务后执行单独的模型合并步骤。

渐进式神经网络（PNN）以列的方式分配网络权值，预先分配每个任务的列宽。它们使用所谓的适配器来重用来自以前的列/任务的知识，导致分配给未来任务的权重的数量逐渐增加。HA T不是盲目地预先指定列宽，而是学习每层的“宽度”，以及网络权重，并根据当前任务的难度进行调整。PathNet (Fernando等人，2017)也为每个任务预先分配了一定数量的网络容量，但与PNNs相反，它避免了网络列和适配器。它使用进化的方法来学习固定数量的所谓模块(层子集)之间的路径，这些模块之间相互连接。HA T不维护一个解的总体，完全使用反向传播和SGD进行训练，并且不依赖于一组恒定的模块。

与PNNs和PathNet一起，PackNet (2017)也使用二进制掩码来约束网络。然而，这种约束不是基于列或层模块，而是基于网络权重。因此，它可以更好地利用网络容量。PackNet基于启发式权重修剪，具有预先分配的修剪比率。HA T也侧重于网络权重，但使用基于单元的掩码来约束这些权重，这也导致了轻量级结构。它避免了任何绝对的或预先指定的修剪比率，尽管它使用可压缩性参数c来影响学习模型的紧凑性。HA T与前三种方法的另一个区别是，它不使用纯二进制掩码。相反，稳定性参数smax控制二值化的程度。

动态可扩展网络(DENY oon等人，2018年)还根据手头的任务分配网络容量。然而，他们是在一个名为“选择性再培训”的单独阶段这样做的。启发式和超参数的复杂混合用于识别“漂移”单元，这些单元在另一阶段被复制和重新训练。L1正则化和L2转移被用来调节学习，以及相应的正则化常数和一组附加的阈值。HA T力求简单，将超参数的数量限制在两个具有简单概念解释的超参数。代替网络权重上的普通L1正则化，HAT在注意力屏蔽上采用了注意力加权L1正则化。注意力屏蔽是一种轻量级结构，可以插入，而不需要对现有网络进行重要更改。

上面介绍了HAT与EWC SI IMM PNN PathNet PackNet之间的区别

4. Experiments

设置——在分类环境中评估灾难性遗忘的常见设置是基于MNIST数据的排列、MNIST数据的标签分割、CIFAR数据集的增量学习类或双任务转移学习设置，其中准确性是在源和目标任务上测量的。然而，这些设置有一些限制。首先，对MNIST数据进行排列被认为有利于某些方法，在灾难性遗忘的背景下产生误导性结果(李等人，2017)。其次，仅使用数据可能不能很好地代表现代计算机视觉任务，也不是特别具有挑战性(肖等人，2017)。第三，递增地添加类或类组意味着假设所有数据来自同一个联合分布，这对于现实世界的设置是不现实的。最后，评估只有两个任务的灾难性遗忘会使结论偏向迁移学习设置，并妨碍对有两个以上任务的真正顺序学习的分析。在本文中，我们考虑前面提到的MNIST和CIFAR设置（4.2).。

尽管如此，我们主要评估由不同分类数据集形成的一系列多任务。4.1).

为了获得一个通用的估计，我们权衡了一些任务，并统一随机化了它们的顺序。训练任务t后，我们计算所有测试任务集τ ≤ t的准确度。我们用10个不同的种子数重复10次这种顺序训练/测试程序，这些种子数也用于其余的随机化和初始化(见下文)。为了比较不同的任务准确度，并为了获得遗忘量的一般度量，我们引入了遗忘率

其中，Aτ≤t是在顺序学习任务t之后在任务τ上测量的精度，AτR是使用任务τ的类别信息的随机分层分类器的精度，Aτ≤t J是在以多任务方式联合学习t个任务之后在任务τ上测量的精度。注意，ρ≈ - 1和ρ ≈ 0分别对应于接近随机和多任务分类器的性能。为了在学习完t任务后报告一个单一的数字，我们取平均值

数据—我们考虑8个常见的图像分类数据集，如有必要，将它们调整为32 × 32 × 3像素的输入大小。classes数量从10到100，training set大小从16853到73257，测试集大小从1873到26032。对于每项任务，我们随机分割15%的训练集，并保留它作为验证目的。
所考虑的数据集是:CIFAR10和CIFAR100 (Krizhevsky，2009)、FaceBook(Ng & Winkler，2014)、FashionMNIST(肖等人，2017)、NotMNIST(布拉托夫，2011)、 MNIST (LeCun等人，1998)、SVHN (Netzer等人，2011)和TraffingSigns(Stalkamp等人，2011)。关于数据的更多细节，请参考附录A

基线——我们考虑了2种参考方法加上9种最近的和有竞争力的方法：标准的SGD，SGD冻结除最后一种以外的所有层(SGD-F)，EWC、IMM-mean、 IMM-mode(均值和模式变量)，不遗忘学习(LWF)，少遗忘学习(LFL)、PathNet 和 PNNs。为了找到每种方法的最佳超参数组合，我们使用由单个 seed 确定的任务序列来执行网格搜索。来计算遗忘率ρ (Eq。6)，我们还运行了前面提到的随机和multitask分类器。

网络—采用 like-AlexNet的架构，其中3个卷积层分别为64、128和256个滤波器，内核大小分别为4×4、3 × 3和2 × 2，外加两个全连接层，每个层2048个单元。我们使用整流线性单元作为激活，并在卷积层之后使用2 × 2max-pooling。前两层的dropout 为0.2，其余层的 dropout 为0.5。具有softmax输出的全连接层与分类交叉熵损失一起被用作最终层。除了嵌入层之外，所有层都用 Xavier uniform initialization均匀初始化随机初始化(Glorot & Bengio，2010)，我们对嵌入层使用高斯分布N(0，1)。代码使用0.2.0版本的PyTorch。我们对所有基线方法采用相同的基础架构，并将它们的参数数量匹配到7.1 M。

训练——我们使用反向传播和普通SGD训练所有模型，使用0.05的学习率，如果连续5个时期验证损失没有改善，则衰减3倍。当我们达到低于10负4的学习率时，我们停止训练，或者我们已经迭代了200个时期(我们确保所有考虑的方法在200个时期之前达到稳定的解决方案)。批量设置为64。对于给定的种子，所有方法都使用相同的任务序列、数据分割、批量洗牌和权重初始化

4.1. Results

我们首先看一下学习任务t后的平均遗忘比例 (图3)。

首先要注意的是，并不是所有考虑的基线都比SGD引用表现得更好。LWF和LFL的情况就是如此。对LWF来说，我们观察到它在设计的两个任务设置中仍然具有竞争力，t = 2。然而，对于t > 2，其性能迅速下降，表明该方法在扩展到迁移学习设置之外存在困难。我们发现LFL对其超参数的配置极其敏感，以至于对一个种子来说是好的值，对另一个种子来说却是坏的选择。因此10粒种子的平均表现很差。最高的标准偏差是由LFL和路径网(表1)获得的，这表明了对超参数、初始化或数据集的高度敏感性。
另一件需要注意的事情是，IMM方法的性能仅与SGD-F参考方法相似或略好。我们认为这是由于任务数据的不同性质和对两个以上任务的考虑，这使得混合超参数的选择变得复杂。

表现最好的基线是EWC、PathNet 、PNN。PathNet 和 PNN 呈现出截然不同的行为。重要的区别在于他们的学习能力。PathNet从正确学习第一个任务开始，对于t ≥ 2，逐步显示出这样做的困难。相比之下，PNNs在最初的任务中表现出困难，并且随着t的增加而变得更好。这些截然不同的行为是由于这两种方法分配网络容量的方式。如前所述，他们不能动态地完成任务，因此需要为每个任务预先分配一定数量的网络权重。当有更多的任务但网络容量相同时，这种预分配越来越损害这些基线的性能，降低了图3中相应的曲线。

我们现在来看HAT的测试结果。首先，我们观察到，对于所有t ≥ 2，hat的表现始终优于所有考虑的基线(图3)。对于t = 2的情况，它获得的平均遗忘率ρ≤2 = 0.02，而最佳基线是ρ≤2 = 0.08的EWC(表1)。对于t = 8的情况，HA T获得ρ≤8 = 0.06，而最佳基线是ρ≤8 = 0.11的PNN。这意味着t = 2时遗忘减少75%，t = 8时遗忘减少45%。请注意，高可用性测试的标准偏差低于大多数基线获得的标准偏差(表1)。这表明高可用性测试对于不同的任务序列、数据集、数据分割和网络初始化具有一定的稳定性。

考虑到PNN的t值略有增加的趋势(图3)，我们可以推测PNN的T值将高于hat，t > 8。然而，我们的实证分析表明情况并非如此(可能是由于第二节中强调的容量预分配和参数增加问题。3及以上)。特别是，我们观察到pathnet和PNN曲线随着从t = 2到8的序列增加而逐渐降低。此外，我们观察到在t = 10的情况下，对于增量类设置，PathNet和PNN的性能比EWC差(见下文和附录C.1)。一般来说，对于所有的 t 没有一种基线方法在所有设置和测试中始终优于其他方法，这是我们在HAT测试中观察到的情况。

4.2. Additional Results

为了扩大我们结果的强度，我们另外试验了三种常见的替代设置。
首先，我们考虑一个增量类学习场景，类似于Lopez-Paz & Ranzato (2017)，使用CIFAR10和CIFAR100数据的类子集。在此设置中，t ≥ 3后的最佳基线是EWC，ρ≤10 = -0.18。HA T评分ρ≤10 = -0.09(遗忘减少55%)。
接下来，我们考虑置换的MNIST任务序列(斯里瓦斯塔瓦等人，2013)。在这种设置下，我们在文献中能找到的最佳结果是来自SI，A≤10= 97.1%。HAT评分A≤10= 98.6%(错误率降低52%)。
最后，我们还考虑了李等人(2017)的split MNIST任务。在这种设置下，文献中的最佳结果对应于概念辅助反向传播方法(何和耶格，2018)，α≤2 = 94.9%。HA T评分A≤2= 99.0%(错误率降低80%)。所有这些设置和结果的细节可以在附录C中找到

4.3. Hyperparameters

在任何机器学习算法中，评估超参数的敏感性都很重要。HA T有两个：稳定性参数smax 和压缩性参数 c (Secs。2.4和2.6)。一个低的 smax 为适应的单位和能力提供了可塑性，但是网络很容易忘记它所学到的东西。高smax可防止遗忘，但网络可能难以适应新任务。低c允许为给定任务使用几乎所有的网络容量，可能会在当前任务中花费太多。高c迫使它学习一个非常紧凑的模型，代价是没有达到原始网络可以达到的精度。我们凭经验发现了良好的操作范围smax取[25，800]和c取[0.1，2.5]。正如我们所看到的，在这些范围内的任何变化都会导致合理的性能(图4)。除非另有说明，我们使用smax= 400，c = 0.75。

4.4. Monitoring and Network Pruning

任务(附录B.3)。将这些数字与PackNet使用的压缩率(25%或50%)进行比较，我们发现hat通常使用更紧凑的模型。与DEN在特定的MNIST任务和CIFAR100任务(18%和52%)上进行比较，我们发现hat分别压缩到1%和21%。有趣的是，与这些和大多数网络修剪方法相反，HA T通过反向传播和SGD学习修剪网络权重，同时学习网络权重本身。

5. Conclusion

我们引入了HAT，这是一种硬注意机制，通过专注于任务嵌入，能够在学习新任务的同时保护先前任务的信息。这种硬注意机制是轻量级的，因为它向基础网络添加了一小部分权重，并且与主模型一起训练，使用反向传播和普通SGD的开销可以忽略不计。我们通过用多个数据集和最先进的方法运行一系列实验，证明了该方法在图像分类环境中控制灾难性遗忘的有效性。HA T只有两个超参数，这两个超参数直观地指的是所学知识的稳定性和紧密性，我们演示的它们的调优对于获得良好的性能并不重要。此外，HAT提供了跨任务和层监控使用的网络容量、跨任务的单元重用以及为给定任务训练的模型的可压缩性的可能性。我们希望我们的方法也可以用于在线学习或网络压缩环境，并且这里提出的硬注意机制也可以在灾难性遗忘问题之外找到一些适用性。