谷歌新大招UDG|直接生成训练数据送给你
卷友们好,我是rumor。
最近我越来越相信Prompt概念了,不光是paper数量越来越多,关键是用过的都说好。比如我的同事,比如我面试到的同学,再比如我看到的一些实践博客。估计在它席卷所有任务和domain之前还会火很久。
Prompt的兴起和大模型息息相关,之前BERT阶段的时候大家都搞预训练,在预训练任务和模型结构上下功夫,结果发现不管怎么调,来个大模型就给干翻了。但大模型不是所有人都能搞呀,于是挖了Prompt这个坑,开始花式改变输入形态,期待从大模型里挖出惊喜,最近我就看到了两种:
把输入参数化:Prompt-tuning
把输入变成更具体的任务描述:Instruction-tuning
但之前这些工作都是围绕着激发Y(label)做文章,昨天刷到了一篇谷歌的工作,改而激发X(text),输入任务描述、文本样例和Y,直接输出X,作为训练语料再去精调模型。如果把该方法用做数据增强,可以在SuperGLUE上提升近1个点:
效果还是很硬的。有意思的是,这篇文章的方法在去年年底(2020.12.20)就有了,当时是第一个在SuperGLUE上超越人类的方法,但不知为什么最近(2021.9.19)才发出来(可能圣诞节去休假了?)。
题目:Towards Zero-Label Language Learning
地址:https://arxiv.org/abs/2109.09193
原理
作者的motivation主要是把大模型生成和预测解耦。虽然完形填空or语言模型的预测方式已经被证明有效,但作者认为Prompt的效果主要是因为X和Y再训练语料中有共现,而且在真实语料里,Y经常在X前面,所以Prompt的预测模版会导致训练和生成的不一致,是次优解。
所以作者采用Y->X的方式,把大模型的知识拿到之后再去训练下游模型。
这篇文章的方法还是挺优雅的,输入由三部分构成:
任务描述:很短的一句话,比如「Yelp Review」
文本样例:这个样例也是没有label的,比如分类任务,就输入一些待分类的文本,论文里是32个。而文本对任务就输入一些文本对,不给标签或者说unknown
Label:也是文字描述,用来指导模型的输出
举个简单的例子,比如你是一个模型,我和你说:咱们来做一个情感分类任务,输入的句子可以是「这家店的火锅真香」、「昨天分手了,想哭」,请问还有什么表达高兴的句子?
比较有意思的是输入样例这个点,完全没有标签,却能指导模型,说明模型里真是有不少东西。而且输入样例个数K对效果的影响还挺大:
效果
真正用到下游精调的时候,作者还是稍微清洗了下数据,采用NLA(Noisy Label Annealing)方法,把精调模型预测结果和label差距太大的删掉。效果提升了0.2-0.8左右。
最终在T5-XXL单模型上超越了BERT系列的模型:
而且比Prompt-tuning的效果也更好,下图是Prompt-tuning的效果截图(不过ensemble后难分伯仲):
总结
这篇文章的主要贡献是验证了在完全无监督的情况下,用大模型生成训练语料的可行性。这样的好处是有了训练语料后,对大模型的依赖就停止了,我可以再训练一个更小的模型保证线上速度。同时这又跟蒸馏有点像,只不过之前的蒸馏都是学习teacher的隐层分布,而UDG直接把知识拿出来再去学习,可解释性和可控性更强。
卷到现在,大模型的应用方式越来越可控且多样了,可以直接用它做下游任务,也可以把它的知识拿出来学习。
那我们再进一步想,是不是通过Prompt、Instruction得到的Y和输入X也可以作为训练数据?而且Instruction的结果可能更加准确(做判别比做生成容易),兜兜转转又回到了知识蒸馏上?
大家好我是rumor
一个热爱技术,有一点点幽默的妹子
欢迎关注我
带你学习带你肝
一起在人工智能时代旋转跳跃眨巴眼
「最近Paper超多,着急」
谷歌新大招UDG|直接生成训练数据送给你相关推荐
- 点云语义分割标注工具及生成训练数据
1.软件的安装 (1)下载后随便你解压到那个文件夹下(软件github地址) github链接 (2)在终端中运行: curl https://install.meteor.c ...
- 谷歌新工具AdID将垄断追踪数据
谷歌准备推出一种名为AdID的匿名广告标识符,用于替代广告商出于营销目的追踪用户网上浏览活动的第三方Cookie.在广告市场上,AdID将秒杀微软.Facebook和苹果现有的模式,让谷歌建立起新的垄 ...
- 谷歌BERT预训练源码解析(一):训练数据生成
目录 预训练源码结构简介 输入输出 源码解析 参数 主函数 创建训练实例 下一句预测&实例生成 随机遮蔽 输出 结果一览 预训练源码结构简介 关于BERT,简单来说,它是一个基于Transfo ...
- 【pytorch】MobileNetV2迁移学习+可视化+训练数据保存
一.前言 由于写论文,不单单需要可视化数据,最好能将训练过程的完整数据全部保存下来.所以,我又又又写了篇迁移学习的文章,主要的改变是增加了训练数据记录的模块,可以将训练全过程的数据记录为项目路径下的E ...
- 人脸识别0-02:insightFace-模型训练与训练数据制作-史上最全
以下链接是个人关于insightFace所有见解,如有错误欢迎大家指出,我会第一时间纠正,如有兴趣可以加QQ:944284742相互讨论技术. 人脸识别0-00:insightFace目录:https ...
- NLP中数据增强的综述,快速的生成大量的训练数据
作者:amitness编译:ronghuaiyang 导读 深度学习视觉领域的增强方法可以很大程度上提高模型的表现,并减少数据的依赖,而NLP上做数据增强不像在图像上那么方便,但还是有一些方法的. 与 ...
- 2023年AI十大展望:GPT-4领衔大模型变革,谷歌拉响警报,训练数据告急
新年伊始,大模型的话题热度不减.2022年11月底,ChatGPT展现的惊人能力将大模型研究和应用热度推向高潮,人们激烈讨论着这个高级"物种"的推出意味着什么,比如是否会颠覆搜索引 ...
- 训练数据较少时如何生成更多的数据
在图像和物体识别方面,计算机表现优于人类. 像Google和Microsoft这样的大公司在图像识别方面已经超越了人类基准[1,2].平均而言,人类大约有5%的时间在图像识别任务上犯了错误.截至201 ...
- 10小时训练数据打造多语种语音识别新高度
本文联合撰写: 腾讯:吕志强,颜京豪,胡鹏飞,康健,阿敏巴雅尔 导语|在刚刚结束的NIST OPENASR评测中,TEG AI语音联合清华大学,刷新世界小语种语音识别比赛6项第一.从2000年开始,N ...
最新文章
- 响应格式html,设置响应格式的HTML邮件
- SAP ABAP Netweaver里的胖接口(fat interface)
- 用navicat连接数据库报错:1130-host ... is not allowed to connect to this MySql server如何处理
- Golang时间格式化
- 报“parseSdkContent failed java.lang.NullPointerException”的错误。
- php sqlite视图,SQLite 视图
- RNN、GRU、LSTM
- 分享6个关于自主学习的思维导图模板
- 步进电机 步进电机驱动器
- UML 基本模型元素
- 键盘调节台式计算机声音,键盘打字音效怎么设置 让键盘打字发出机械键盘声音方法...
- 人人网模拟用户登陆行为后进入包贝尔的个人主页
- 塔望食业洞察|轻食代餐消费洞察、市场现状、竞争格局及未来趋势
- POC_3COM NJ2000
- 安全自动化企业网络架构 (毕设分享)
- 《中华百寺》专题片开机 江苏13古刹入选百大名寺
- 南方医科大学近日拟对11名博士研究生、5名硕士研究生作退学处理!
- Xcode更改包名和APP名称
- 市面上主流源表软件全面对比,总有一款适合你!
- perl-操作ole,比如操作word
热门文章
- 装箱问题(Packing Problem)
- 三星530换固态硬盘_三星迷你固态硬盘Portable SSD T7 Touch试用 支持指纹识别设备...
- 【吴刚】iOS原生图标设计原理与绘制技巧标准教程-吴刚-专题视频课程
- WebGIS开发和Web开发的区别
- ElasticSearch与SpringBoot的巨坑
- 管理3.0-培养和提升敏捷领导力摘抄和笔记
- (含PPT)MySQL托管服务架构及读写分离的优化
- 数据质量分析之校验规则模板
- 晶振的频率误差,负载电容,匹配电容及IC内置补偿电容
- 用matlab画多普勒加宽线性函数,MTD雷达中多普勒滤波器组的设计与实现