meta  元

meta learning: learn to learn 学习如何学习

大部分的时候deep learning就是在调hyperparameter、调hyperparameter真的很烦,决定什么network的架构啊、决定learning rate啊等等、

实际上没有什么好方法来调这些hyperparameter、今天业界最常拿来解决调hyperparameter的方法呢就是买很多张gpu了、

他们训练model的时候就像是这个翻车鱼一样、一次训练多个model、有的train不起来就丢掉、最后只看那些可以串起来的model、他会得到什么样的performance

所以在业界,做实验时 往往就是一次开个1000张gpu、1000张gpu跑1000组不同的hyperparameter、看看哪一组hyperparameter可以给你最好的结果好

其实说1000都是低估了。那些大公司在采买gpu的时候、单位都是用万来算的、这次要买3万张gpu这种等级啊

所以业界今天在deep learning上的规模  真的是跟学界是不太一样啊

但是学界  没有这个多gpu。。在学校每个人只有一张gpu、凭着你的经验跟直觉定义一组好的hyperparameter、祈祷可以得到好的结果

hyperparameter能不能用学的?这就是meta learning其中一个可以帮助我们的事情

讲解meta learning之前,先回顾一下machine learning的三个步骤:

  1. 定义一个未知的function,用 fθ 表示,θ是未知的参数,需要学出来。

2. 定义一个Loss function。L(θ)

3. 优化Loss function。找一个参数θ*,让Loss越小越好。

接下来介绍Meta Learning。什么是Meta Learning呢?

其实“学习”这件事 本身也是一个func.

一个machine learning的algorithm、简化来看,其实它就是一个function(F)

输入:data set;输出:训练完的结果,e.g. classifier

Meta Learning也分为3个步骤:

1. 确定learning algorithm中要被学的东西。

像机器学习里,我们说neuron的weight和bias是要被学出来的

在这里 那就看你什么东西想要让机器自己帮你决定、那那些就是要被学出来的东西

比如network结构、初始化参数、学习率等等。需要学习的部分统称为 ϕ 。

那其实不同的mata learning的方法、它就是想办法去学不同的learning algorithm中的component

2. 为learning algorithm定义loss function L(ϕ) ,

如何决定L?在一般的机器学习中,L 来自于训练资料

Meta Learning里训练资料是什么?Meta Learning里 我们收集的是训练的任务

假设你今天想要训练一个binary classifier,那你要准备很多二元分类的任务. 比如task1分别苹果和橘子 task2分别车和脚踏车

L包括训练任务,训练集以及测试集。

首先给network训练集,根据learning algorithm确定network,训练一个模型。如果这个模型效果是好的,那么说明learning algorithm是有效果的。

当然上述只是用在了一个任务上测试learning algorithm的效果,实际上应该还会给出好多个任务,每个任务虽然learning algorithm一样,但丢进去的资料不一样,产生的classifer也不一样。每个任务都重复上述步骤,并将最后的loss全加在一起让total loss最小。

这里可能有人会有疑问,上述方法在训练过程中用到了testing dataset,这在训练中应该是不被允许的啊。但是meta learning其实是以任务为单位的,是用已知的有限个任务(训练集和测试集都可以当做已知)训练得到learning algorithm,然后用于其它未知的任务。

3. 找出让 L 最小的那个 ϕ∗ ,就得到了learning algorithm Fϕ∗

那如何得到 ϕ∗ 呢?如果明确知道L与 ϕ 之间的关系,就用梯度下降法;如果不知道关系,ϕ可能是什么network架构之类很复杂的东西

如果你在解一个optimization problem的时候、没有办法计算gradient、没法计算微分,用RL硬train,或者evolutionary algorithm(进化计算)硬做。

(什么时候L(ϕ)没法对ϕ做微分?取决于你的ϕ是什么,如果ϕ是离散的,比如说network架构几层,没法做小小变化,)

总的来说,meta learning的整体框架如下:

通过training task确定learning algorithm,然后用testing task验证learning algorithm是否有效。在testing task中,只需要很少的训练样本few-shot learning就可以完成网络的训练。

所以那些few-shot learning 的算法 通常就是用meta learning得到的。

testing task的training data在meta learning里面是不能碰的

Machine Learning VS Meta Learning

  • 目标不同。machine learning的目标使找到一个function f,而meta learning的目标是找到一个F,这个F用于找f。

  • 训练数据不同。

我们将只用一个任务内数据训练的过程称为Within-task Training,将多个任务训练过程称为Across-task Training。

对于验证过程,machine learning中的验证过程称为within-task Testing,meta learning中的验证过程称为Across-task Testing,meta learning中我们要测试的不是一个classify表现的好坏、而是一个learning algorithm表现的好坏,

  • Loss不同。machine learning是通过一个任务算出来的,而meta learning使用N个任务算出来的。

Meta learning  training时,算 每个任务的loss,需要经过一个完整的episode(一次完整的训练和一次测试),

在Learning to initialize文献中(也就是非常知名的memo系列work),将Across-task training称为外循环(Outer Loop),Within-task Training称为内循环(Inner Loop),其实Meta Learning的计算量还是十分大的。

有些learning算法其实没有loop(用梯度下降 learning algorithm就是要反复跑 所以有很多loop)

刚才说的都是Meta Learning和Machine Learning之间的区别,那两者之间有什么联系呢?

比如,两者都有overfitting的问题,一种解决方案是增加多的训练资料,或者是data augmentation/ task augmentation处理。

另外Meta Learning 做optimization,假设一样用gradient descent,还是 要调参!但是调整完毕后可以一劳永逸,Machine Learning模型的参数通过learning algorithm就可以直接得到。

Machine Learning时 用development set来选模型,来决定比如说 network架构、调 超参数,

很多meta learning文献没有development set,但老师认为不对。

2021 - 元学习 Meta Learning (二) - 万物皆可 Meta_哔哩哔哩_bilibili

接下来 举一些实例告诉你说在meta learning里面什么东西是可以被学的:

Learning to initialize

回想一下,梯度下降法(Gradient Descent)整个过程,首先初始化参数,是可以被train的,一般θ0是从某个固定的distribution里simple出来的,随机初始化。

我们也知道,好的初始化参数对最后的结果影响还是很大的,所以能不能用meta learning学习一组比较好的初始化参数。有一种方法叫做MAML,相关研究可以参考下面的文献:

最原版的MAML并没有很好train,train随机初始化参数也需要random seed,也需要梯度下降。

于是有了改进方法MAML++,可以减小训练难度。

MAML与Pre-training(预训练)有什么样的差别呢?

Pre-training就是,将多个任务资料倒在一起训练找到一组好的初始化参数(multi-task learning),通常将预训练得到的模型准确率作为MAML的baseline。

如今做影像的自监督学习时,最流行的方法是contrastive learning(这个课程里面没有介绍),

过去自监督学习系列还不红时,另一种做pre-training 的做法

MAML  vs pre-training:        https://youtu.be/vUwOA3SNb_E

MAML为什么是有效果的?人们有两种想法,一种想法是通过MAML得到的初始化参数可以很容易的将参数收敛到对应任务中,另一种想法是MAML得到的初始化参数离每个任务对应最优值的参数很接近。下面这篇论文给出,想法二是MAML效果好的主导原因。同时这篇文章也给出了一种MAML的变形——ANIL。

MAML还有更多的变形,感兴趣可以看一下下面给出的相关视频:

Optimizer

优化器中的参数也可以通过Meta Learning学出来,比如学习率等。

这里有一篇关于Meta Learning根据训练任务自动学习Optimizer的文章,训练方式类似于训练一个LSTM。利用学习到的学习率比直接手调的效果要好一些。这篇文章最后还给出测试任务对应网络结构改变或者激活函数改变,会对最后结果产生不同程度的影响。

Network Architecture Search(NAS)

Meta Learning还可以用于寻找合适的网络结构。对于网络结构中的参数,由于大多是离散值,我们可能无法对其计算微分,因此可以采用RL硬Train出来(具体方法可以参考一下下面的文献)。具体来说,让agent的输出是网络结构参数,Reward就是-Loss。

利用 Reinforcement Learning学习网络结构的具体过程如下:

agent的训练过程可以类比RNN(因为是比较早的文章)。

除了使用Reinforcement Learning,还可以使用Evolution Algorithm,感兴趣的小伙伴可以看一下下面的文献:

其实硬是把network architecture改成可以微分也是可以的,DARTS这篇文献就是介绍这种方法:

Data Processing

data augmentation的方法 ,现在你是用trial and error去试出来的,也是可以通过Meta Learning学出来的。比如数据增强的过程,可以通过学习的方式学出来,参考文献如下:

Sample weight strategy

另外还可以给不同的sample(样本)在训练时赋予不同的权重(weight),参考文献如下:

上面的方法都是基于Gradient Descent(梯度下降)再去改进,但是有没有可能抛弃梯度下降,给训练资料,然后直接输出network的参数,目前也有人在做相关的研究:

如果真的有这样一个network、那我们就可以说我们甚至让机器发明了新的learning algorithm

到目前为止,我们还是把训练跟测试分成两个阶段、我们所有模型建立的过程都是,先利用Learning Algorithm学出一个模型,然后用训练得到的模型用在测试资料上。有没有可能更进一步,直接将训练资料和测试资料都扔给一个Function,就可以直接根据测试资料输出对应的结果。

也就是我们不再有训练跟测试的分界、一个episode里面不再分训练跟测试、而是直接用一个network把训练跟测试这件事情一次搞定,

有一个系列的方法叫做Learning to compare,相关资料如下:

Application

关于Meta Learning是否真的有实际应用呢?

今天你在做meta learning的时候啊、最常拿来测试ma learning技术的任务叫做few shot的image classification。有个名词叫N-way K-shot classification任务,就是在每个任务中都有N个类,每个类有K个样本,比如下面这个水果分类(属于一个任务),就属于3-ways 2-shot任务:

上述任务有一个公共数据集——Omniglot,共有1623个字符,每个字符有20个example:

其实人在做few shot classification是非常厉害的

Meta Learning还可以应用于其他任务中,比如语音辨识、文本分类等等,如下:

今天在学界已经开始把meta learning推向更复杂的任务,让我们拭目以待,看看未来这个技术能不能够真的用在现实的应用上

2022 - 各种奇葩的元学习 (Meta Learning) 用法_哔哩哔哩_bilibili

meta learning  vs.  self-supervised learning

bert跟他的好朋友们,  他们做的事情其实是找一个初始化的参数

往往bert跟MAML 它们是可以互相相辅相成的

MAML有个重大弱点:用gradient descent方法learn初始化参数,但是梯度下降就需要初始化参数!

bert在实务上结果非常好,但有一个重大问题:learning gap

MAML跟bert同样是找初始化的参数,但是bert不能保证在下游任务一定会有好的表现。

MAML如果训练任务和测试任务,有接近的分布,

但是MAML自身训练量非常庞大,且需要准备训练任务 需要人工标注。

有非常多文章尝试把bert跟MAML结合在一起,这里举2个例子,一个例子做在 task -oriented semantic parsing 上(一个NLP任务)

绿色线结果更好,尤其是训练资料特别少的时候。

另一篇文章也说明了这个现象。

李老师最近写了一篇有关meta learning用在自然语言处理上面的overview paper, 统计了近3年相关的文章,特别是做MAML时都是怎么做initialization:

meta learning  vs.  knowledge distillation

模型压缩专题 里提到了knowledge distillation技术

问题:“ teacher”擅长教学?

那甚至呢有文献指出、在这个分类任务上做得特别好的teacher、它本身不见得是特别擅长教学的

我们可以引进meta learning的概念,让teacher学习怎么teach

要update teacher network,最终目标是要让student的结果变好,会不会很难学?

teacher net 的update,不一定要update一整个大模型的所有参数,比如有的文章里,只会update  teacher net的output的temperature,这个 temperature到底要加多大呢、过去只能当做一个 hyperparameter

meta learning  vs.  domain generalization

最简单的是有一些但是不多的label data,很自然可以用meta learning解。meta learning特别擅长解few-shot learning的题目,

这里我们分享 怎么把meta learning用在domain generalization上面,即:我们对target domain一无所知.  我们没有target domain的data

但是meta learning本身也有可能会遇到需要做domain adaptation 和domain generalization的状况

我们需要做domain adaptation,是因为我们的训练资料跟测试资料有可能有很不一样的分布

这是一个尚待研究的问题...

meta learning  vs.  life-long learning

之前的课 我们已经讲过了一系列可以处理catastrophic forgetting的方法,那meta learning有没有可能强化这些方法呢

举例说明:meta learning怎么用在selective synaptic plasticity上,  这类的方法又叫做regulation base的方法

我们之前提过一系列regulation的方法,比如EWC、SI、MAS,但是这些方法他们是人所设计的,人设计了一些constraint

用meta learning来找一个比较好的learning algorithim,目标是避免catrophy forgetting

meta learning本身也可能遇到catrophy forgetting问题....

2022.6.27的opening,怎么把自监督学习技术用在语音上。

台智云

meta learning(李宏毅相关推荐

  1. 【李宏毅】元学习(Meta learning)的概念与步骤

    [李宏毅]元学习(Meta learning)的概念与步骤 1 概念 2 元学习步骤 2.1 定义一组学习算法 2.2 评价一个学习算法 F F F 的好坏 只讲了元学习概念和步骤,简单做了解,稍微复 ...

  2. Meta learning - metric-based approach 李宏毅机器学习笔记

    Siamese Network 孪生网络,通常不会放在meta learning里面 但是李宏毅就要把这个网络放在meta learning里面讲 所以为什么孪生网络可以看成meta learning ...

  3. 深度学习基础——简单了解meta learning(来自李宏毅课程笔记)

    知乎同名账号同步发布 目录 一.初步了解 二.和ML的差异 三.应用了解 一.初步了解 我们以分类问题为例,以前,学习的目的是学习一个二元分类器 f ∗ f^* f∗:现在,学习的目的是学习一个学习算 ...

  4. 【李宏毅2020 ML/DL】P97-98 More about Meta Learning

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 本节内容综述 本节课由助教 陈建成 讲解. 本节 Outline 见小细节. 首先是 What is meta ...

  5. 【李宏毅2020 ML/DL】P88-96 Meta Learning – MAML | Reptile

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 本节内容综述 元学习就是 Learn to learn ,让机器变成 a better learner .Me ...

  6. 李宏毅机器学习35——meta learning

    摘要: 这节课学习了meta learning(元学习) 元学习是通过一系列task的训练,让机器成为一个更好的学习者,当机器遇到新的学习任务时,就能更快的完成.类比到现实生活中,元学习不是指某一类的 ...

  7. 理解Meta Learning 元学习,这篇文章就够了!

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 AI编辑:我是小将 本文作者:谢杨易 1 什么是meta lear ...

  8. 元学习Meta learning深入理解

    目录 基本理解 元学习与传统的机器学习不同在哪里? 基本思想 MAML MAML与pre-training有什么区别呢? 1. 损失函数不同 2. 优化思想不同 MAML的优点及特点 MAML工作机理 ...

  9. 强化学习-把元学习(Meta Learning)一点一点讲给你听

    目录 0 Write on the front 1 What is meta learning? 2 Meta Learning 2.1 Define a set of learning algori ...

最新文章

  1. html css制作计算器,使用html+css+js实现计算器
  2. C++自定义直方图均衡化
  3. 【IT笔试面试题整理】删除无序链表中重复的节点
  4. 测试框架之GTest
  5. mysql与mssql中datetime类型字段问题_excel数据存入sqlserver过程中,遇到Datetime的格式问题。...
  6. 【POJ - 1556】The Doors (计算几何,线段相交)
  7. NSStringUIImage~NSData的相互转换以及中文转码
  8. 从苹果换回安卓是什么体验?
  9. libcareplus支持的补丁类型
  10. 小波变换 分离影像低频部分_经济周期分析的强大工具——小波分析
  11. linux里面的命令
  12. 根据录入的计算公式计算_预制桩极限承载力标准值快速计算方法研究
  13. 【有限差分法】(一)有限差分法的基本流程与常用格式
  14. java 控制层和业务层,控制层、业务层和数据访问层
  15. centos7安装abaqus2020
  16. 展开操作符:一家人就这么被拆散了
  17. 20952磁盘存储器的管理
  18. 天赐转债,强联转债,再22转债上市价格预测
  19. 又发现一款纯js开源电子表格Luckysheet
  20. linux中的lnk格式,ink文件扩展名,ink文件怎么打开?

热门文章

  1. Apollo:modules/planning/common/obstacle.cc分析
  2. 项目经理必备的可视化管理工具
  3. 学PHP是找PHP培训机构好还是自学好?
  4. arcgis做水文分析(河流提取、流域提取)
  5. angular7中使用iframe来加载外部页面
  6. Nuvoton NK-980IOT开发板 u-boot 编译
  7. html5教程图书大全
  8. 个别手机在微信内无法长按识别二维码
  9. 检测浏览器对html5支持的测试网址
  10. 大家都说工作越干越有经验,为啥会有35岁程序员失业危机?