Abstract & Introduction & Related Work

研究任务
持续学习
已有方法和相关工作
面临挑战
创新思路
- 部署了一个外显记忆单元，为每个任务存储一个子储存每个任务的子样本集，以学习特定任务的基于核岭回归的分类器
- 不需要记忆重放，而且系统性地避免了分类器的任务干扰
- 我们进一步引入变分随机特征，来为每个任务学习一个数据驱动的内核，为此，我们将核持续学习表述为一个变分推断问题，其中随机傅里叶基被纳入为隐变量
- 我们通过将特征提取器与分类器解耦来引入基于核的特定任务分类器，以实现持续学习
实验结论

随机傅里叶基础上的变分后验分布是从每个任务的核心集推断出来的。通过这种方式，我们能够生成针对每个任务的信息量更大的核，而且更重要的是，可以减少核心集的大小，以实现更紧凑的记忆，从而产生更有效的基于偶发记忆的持续学习。对四个基准的广泛评估表明了持续学习的内核的有效性和前景

核提供了几个好处：

分类器的直接干扰被自然地避免了，因为核是以非参数的方式为每个任务建立的，并且没有分类器的参数是跨任务共享的
此外，与现有的记忆重放方法相比，例如（Kirkpatrick等人，2017；Chaudhry等人，2019a），我们的内核持续学习在训练当前任务时不需要重放以前任务的数据，这避免了任务干扰，同时可以实现更有效的优化。
为了实现每个任务的自适应内核，我们进一步引入随机傅里叶特征，以数据驱动的方式学习核

具体来说，我们将带有随机傅里叶特征的内核持续学习表述为一个变分推理问题，其中随机傅里叶基础被视为一个潜变量

变分推理的表述自然地诱导出一个正则化项，鼓励模型只从核心集为每个任务学习自适应核。作为一个直接的结果，我们能够用体积更小内存，从而减少存储开销

Kernel Continual Learning

Problem Statement

我们考虑在当前任务 ttt 上学习模型，给定其训练数据 Dt\mathcal{D_t}Dt ，我们统一选择当前任务ttt 中现有类之间的数据子集，称为核心集数据集（Nguyen等人，2018），表示为。 Ct=(xi,yi)i=1NcC_t=(\mathbf{x_i} , \mathbf{y_i})^{N^c}_{i=1}Ct=(xi,yi)i=1Nc。我们在核心集上构建基于核岭回归的分类器 fcf_cfc 。假设我们有权重为 www 的分类器，而核岭回归的损失函数有以下形式

基于Representer定理，有：

k是核函数

优化以下目标函数：

原则上，我们可以使用任何（半）正定核，例如径向基函数（RBF）核或点积线性核来构建分类器。然而，这些核都不是特定的任务，可能会出现次优性能，特别是在数据有限的情况下。此外，我们需要一个相对较大的核心集来获得信息量大且具有辨别力的核，以获得令人满意的性能。为了解决这个问题，我们进一步引入随机傅里叶特征来学习数据驱动的核，这在以前的常规学习任务中已经证明是成功的（Bach等人，2004；Sinha和Duchi，2016；Carratino等人，2018；Zhen等人，2020）。使用随机傅里叶特征的数据驱动内核提供了一种吸引人的技术，以相对较小的内存足迹学习强大的分类器，用于基于偶发记忆的持续学习

Variational Random Features

在非参数方法（如核岭回归）中寻找映射函数时，其中一个关键因素是核函数。Rahimi和Recht(2007)介绍了一种使用显式特征图近似翻译不变量核的算法，该算法在理论上以Bochner定理为支撑

Theorem 1 (Bochner’s Theorem)

一个连续的、实值的、对称的和移位不变的函数 k(x，x0)=k(x−x0)k(\mathbf{x，x_0}) = k(\mathbf{x - x_0} )k(x，x0)=k(x−x0)在 Rd\mathbb{R^d}Rd 上是一个正定核，当且仅当它是一个正的有限度量的傅里叶变换p(w)，从而:

基于定理1，我们抽取D组样本。{ωi}i=1D\{ω_i\}^D_{i=1}{ωi}i=1D和 {bi}i=1D\{b_i\}^D_{i=1}{bi}i=1D，分别来自正态分布和均匀分布（范围为[0, 2π]），并使用公式 (7) 为每个数据点x构建随机傅里叶特征（RFF）

传统上，移位不变量核是基于随机傅里叶特征构建的，其中傅里叶基础是从一个高斯分布中提取的，该分布由一个预先定义的核转化而成。这导致核与任务无关。然而，在持续学习中，任务是按顺序从非静止数据分布中提供的，这使得在不同任务中共享相同的核函数成为次优选择。为了解决这个问题，我们建议以数据驱动的方式学习特定的任务核。这在持续学习中更有吸引力，因为我们希望使用最小尺寸的核集来学习信息核。我们将其表述为一个变分推断问题，其中我们将随机基础 ωωω 视为一个潜在变量

Evidence Lower Bound

在统计学的角度，我们优化以下极大似然函数

引入一个随机傅里叶基 ω\omegaω，得到：

其直觉是，我们可以使用数据来推断潜在变量 ωωω 的分布，其先验是以数据为条件的。我们将数据和 ωωω 结合起来，生成核，根据核岭回归对 xxx 进行分类。我们也可以简单地在潜在变量 ωωω 上放置一个标准高斯分布的非信息性先验，这将在我们的实验中进行研究

通过将变异后验纳入公式（9）并应用jensen不等式，我们建立证据下限（ELBO）如下

因此，最大化ELBO相当于最大化公式（8）中的条件对数似然。详细推导见补充材料

Empirical Objective Function

在持续学习的设置中，我们希望模型能够完全基于存储在内存中的核心集 CtC_tCt 进行预测

也就是说，条件对数似然应该只以核心集为条件。基于公式（10）中的ELBO，我们建立了以下经验目标函数，通过我们的整体训练程序使之最小化

其中，在第一项中，我们采用蒙特卡罗方法从变分后验 q(ω∣Ct)q(ω|\mathcal{C_t})q(ω∣Ct)中抽取样本来估计对数似然，而 L 是蒙特卡罗样本的数量。在第二项中，条件先验作为一个正则器，确保推断出的随机傅里叶基础始终与当前任务相关。最小化Kullback Leibler（KL）散度迫使从核心集推断出的随机傅立叶基的分布接近于训练集的分布

此外，KL项使我们能够使用相对较小的内存生成适应每个任务的信息核。在实践中，条件分布 qφ(ω∣Ct)q_φ(ω|\mathcal{C_t})qφ(ω∣Ct)和pγ(ω∣Dt/Ct)p_γ(ω|\mathcal{D_t / C_t})pγ(ω∣Dt/Ct)被假定为高斯。我们通过使用摊销技术来实现它们（Kingma & Welling, 2014）。也就是说，我们使用多层感知器来生成分布参数，µµµ 和 σσσ ，把条件作为输入。在我们的实验中，我们部署了两个独立的摊销网络，被称为推理网络 fφf_φfφ 的变分后验和先验网络 fγf_γfγ 的先验。此外，为了证明数据驱动内核的有效性，我们还实现了变分随机特征的一个变体，即用一个无信息的先验，即一个各向同性的高斯分布 N(0,I)\mathcal{N(0,I)}N(0,I)来代替公式（11）中的条件先验。在这种情况下，内核也是以数据驱动的方式从核心集学习的，不受任务训练数据的制约

Experiments

Conclusion

在本文中，我们介绍了核持续学习，这是一种简单而有效的基于内核分类器的持续学习的分类器

为了减轻灾难性遗忘，我们没有在不同的任务中使用共享的分类器，而是提议在核岭回归的基础上学习特定任务的分类器

具体来说，我们部署了一个外显记忆单元来存储每个任务的训练样本子集，这被称为核心集

我们通过将随机傅里叶基数视为从核心集推断出的潜变量，将核学习表述为一个变分推理问题，通过这样做，我们能够为每个任务生成一个自适应核，同时需要相对较小的内存大小。

我们在四个基准数据集上进行了广泛的实验，进行持续的学习。我们彻底的消融研究证明了内核持续学习的有效性以及变异随机特征在学习数据驱动的内核持续学习中的好处。我们的内核持续学习已经在所有基准上取得了sota，同时开辟了内核方法和持续学习之间许多其他可能的联系

Remark

非常花里胡哨，并且告诉我，“你的数学基础就是垃圾”

Raki的读paper小记：Kernel Continual Learning相关推荐

Raki的读paper小记：Forget-free Continual Learning with Winning Subnetworks
Abstract&Introduction&Related Work 研究任务用子网络做CL 已有方法和相关工作彩票假说(LTH)证明了稀疏子网络(称为中奖彩票)的存在,这些子网络 ...
Raki的读paper小记：Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets
Abstract&Introduction&Related Work 研究任务 Continual Learning 已有方法和相关工作面临挑战创新思路利用持续学习过程中的持续稀 ...
Raki的读paper小记：Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models
Abstract&Introduction&Related Work 研究任务基于提示学习的ELECTRA 已有方法和相关工作 ELECTRA 面临挑战基于判别模型的预训练模型的f ...
Raki的读paper小记：OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK
Abstract&Introduction&Related Work 研究任务多模式预训练的统一范式包括图像生成.visual-grounding(visual grounding ...
Raki的读paper小记：Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
Abstract&Introduction&Related Work 研究任务语言+视觉模态预训练任务已有方法和相关工作 masked data已经成为一种主流面临挑战现有的多 ...
Raki的读paper小记：Named Entity Recognition without Labelled Data: A Weak Supervision Approach（半成品）
Abstract & Introduction & Related Work 研究任务无标注数据NER学习已有方法和相关工作 Unsupervised domain adaptat ...
Stetman读paper小记：ATTEQ-NN
注:本周笔者阅读了龚雪鸾.陈艳娇的文章ATTEQ-NN:Attention-based QoE-aware Evasive Backdoor Attacks.本文讲了作者设计的一种基于注意力机制的后门 ...
Stetman读paper小记：BackdoorBench - A Comprehensive Benchmark of Backdoor Learning
之前因为参与了实验室后门攻击的项目,阅读了一下这篇关于后门学习的综合性基准测试的研究工作,在此记录一下学习笔记与心得. 1 摘要这篇文章介绍了一个名为BackdoorBench的基准测试,用于评估后 ...
机器学习学习笔记-持续学习（Continual Learning/ Life-long Learning）
任务: 将旧任务学习的知识应用到新的任务上,同时在旧任务上的表现不会出现太大的损失. 问题: (1)将旧任务的知识利用,从而更快适应新任务. (2)在学习新任务的同时在旧任务上的表现不会出现太大下降. ...
CVPR 2020 Workshop on Continual learning in Computer Vision 征稿
点击我爱计算机视觉标星,更快获取CVML新技术为了进一步推广Lifelong Robotic Vision项目,吸引更多的学术工业界的研究开发人员,英特尔中国研究院作为主办方之一在IEEE Con ...

Raki的读paper小记：Kernel Continual Learning