卷友们好，我是rumor。

最近我越来越相信Prompt概念了，不光是paper数量越来越多，关键是用过的都说好。比如我的同事，比如我面试到的同学，再比如我看到的一些实践博客。估计在它席卷所有任务和domain之前还会火很久。

Prompt的兴起和大模型息息相关，之前BERT阶段的时候大家都搞预训练，在预训练任务和模型结构上下功夫，结果发现不管怎么调，来个大模型就给干翻了。但大模型不是所有人都能搞呀，于是挖了Prompt这个坑，开始花式改变输入形态，期待从大模型里挖出惊喜，最近我就看到了两种：

把输入参数化：Prompt-tuning
把输入变成更具体的任务描述：Instruction-tuning

但之前这些工作都是围绕着激发Y（label）做文章，昨天刷到了一篇谷歌的工作，改而激发X（text），输入任务描述、文本样例和Y，直接输出X，作为训练语料再去精调模型。如果把该方法用做数据增强，可以在SuperGLUE上提升近1个点：

效果还是很硬的。有意思的是，这篇文章的方法在去年年底（2020.12.20）就有了，当时是第一个在SuperGLUE上超越人类的方法，但不知为什么最近（2021.9.19）才发出来（可能圣诞节去休假了？）。

题目：Towards Zero-Label Language Learning
地址：https://arxiv.org/abs/2109.09193

原理

作者的motivation主要是把大模型生成和预测解耦。虽然完形填空or语言模型的预测方式已经被证明有效，但作者认为Prompt的效果主要是因为X和Y再训练语料中有共现，而且在真实语料里，Y经常在X前面，所以Prompt的预测模版会导致训练和生成的不一致，是次优解。

所以作者采用Y->X的方式，把大模型的知识拿到之后再去训练下游模型。

这篇文章的方法还是挺优雅的，输入由三部分构成：

任务描述：很短的一句话，比如「Yelp Review」
文本样例：这个样例也是没有label的，比如分类任务，就输入一些待分类的文本，论文里是32个。而文本对任务就输入一些文本对，不给标签或者说unknown
Label：也是文字描述，用来指导模型的输出

举个简单的例子，比如你是一个模型，我和你说：咱们来做一个情感分类任务，输入的句子可以是「这家店的火锅真香」、「昨天分手了，想哭」，请问还有什么表达高兴的句子？

比较有意思的是输入样例这个点，完全没有标签，却能指导模型，说明模型里真是有不少东西。而且输入样例个数K对效果的影响还挺大：

效果

真正用到下游精调的时候，作者还是稍微清洗了下数据，采用NLA（Noisy Label Annealing）方法，把精调模型预测结果和label差距太大的删掉。效果提升了0.2-0.8左右。

最终在T5-XXL单模型上超越了BERT系列的模型：

而且比Prompt-tuning的效果也更好，下图是Prompt-tuning的效果截图（不过ensemble后难分伯仲）：

总结

这篇文章的主要贡献是验证了在完全无监督的情况下，用大模型生成训练语料的可行性。这样的好处是有了训练语料后，对大模型的依赖就停止了，我可以再训练一个更小的模型保证线上速度。同时这又跟蒸馏有点像，只不过之前的蒸馏都是学习teacher的隐层分布，而UDG直接把知识拿出来再去学习，可解释性和可控性更强。

卷到现在，大模型的应用方式越来越可控且多样了，可以直接用它做下游任务，也可以把它的知识拿出来学习。

那我们再进一步想，是不是通过Prompt、Instruction得到的Y和输入X也可以作为训练数据？而且Instruction的结果可能更加准确（做判别比做生成容易），兜兜转转又回到了知识蒸馏上？

大家好我是rumor

一个热爱技术，有一点点幽默的妹子

欢迎关注我

带你学习带你肝

一起在人工智能时代旋转跳跃眨巴眼

「最近Paper超多，着急」

谷歌新大招UDG｜直接生成训练数据送给你相关推荐

点云语义分割标注工具及生成训练数据
1.软件的安装 (1)下载后随便你解压到那个文件夹下(软件github地址) github链接 (2)在终端中运行: curl https://install.meteor.c ...
谷歌新工具AdID将垄断追踪数据
谷歌准备推出一种名为AdID的匿名广告标识符,用于替代广告商出于营销目的追踪用户网上浏览活动的第三方Cookie.在广告市场上,AdID将秒杀微软.Facebook和苹果现有的模式,让谷歌建立起新的垄 ...
谷歌BERT预训练源码解析（一）：训练数据生成
目录预训练源码结构简介输入输出源码解析参数主函数创建训练实例下一句预测&实例生成随机遮蔽输出结果一览预训练源码结构简介关于BERT,简单来说,它是一个基于Transfo ...
【pytorch】MobileNetV2迁移学习+可视化+训练数据保存
一.前言由于写论文,不单单需要可视化数据,最好能将训练过程的完整数据全部保存下来.所以,我又又又写了篇迁移学习的文章,主要的改变是增加了训练数据记录的模块,可以将训练全过程的数据记录为项目路径下的E ...
人脸识别0-02：insightFace-模型训练与训练数据制作-史上最全
以下链接是个人关于insightFace所有见解,如有错误欢迎大家指出,我会第一时间纠正,如有兴趣可以加QQ:944284742相互讨论技术. 人脸识别0-00:insightFace目录:https ...
NLP中数据增强的综述，快速的生成大量的训练数据
作者:amitness编译:ronghuaiyang 导读深度学习视觉领域的增强方法可以很大程度上提高模型的表现,并减少数据的依赖,而NLP上做数据增强不像在图像上那么方便,但还是有一些方法的. 与 ...
2023年AI十大展望：GPT-4领衔大模型变革，谷歌拉响警报，训练数据告急
新年伊始,大模型的话题热度不减.2022年11月底,ChatGPT展现的惊人能力将大模型研究和应用热度推向高潮,人们激烈讨论着这个高级"物种"的推出意味着什么,比如是否会颠覆搜索引 ...
训练数据较少时如何生成更多的数据
在图像和物体识别方面,计算机表现优于人类. 像Google和Microsoft这样的大公司在图像识别方面已经超越了人类基准[1,2].平均而言,人类大约有5%的时间在图像识别任务上犯了错误.截至201 ...
10小时训练数据打造多语种语音识别新高度
本文联合撰写: 腾讯:吕志强,颜京豪,胡鹏飞,康健,阿敏巴雅尔导语|在刚刚结束的NIST OPENASR评测中,TEG AI语音联合清华大学,刷新世界小语种语音识别比赛6项第一.从2000年开始,N ...

谷歌新大招UDG｜直接生成训练数据送给你

原理

效果

总结

谷歌新大招UDG｜直接生成训练数据送给你相关推荐

最新文章

热门文章