卷友们好,我是rumor。

最近我越来越相信Prompt概念了,不光是paper数量越来越多,关键是用过的都说好。比如我的同事,比如我面试到的同学,再比如我看到的一些实践博客。估计在它席卷所有任务和domain之前还会火很久。

Prompt的兴起和大模型息息相关,之前BERT阶段的时候大家都搞预训练,在预训练任务和模型结构上下功夫,结果发现不管怎么调,来个大模型就给干翻了。但大模型不是所有人都能搞呀,于是挖了Prompt这个坑,开始花式改变输入形态,期待从大模型里挖出惊喜,最近我就看到了两种:

  1. 把输入参数化:Prompt-tuning

  2. 把输入变成更具体的任务描述:Instruction-tuning

但之前这些工作都是围绕着激发Y(label)做文章,昨天刷到了一篇谷歌的工作,改而激发X(text),输入任务描述、文本样例和Y,直接输出X,作为训练语料再去精调模型。如果把该方法用做数据增强,可以在SuperGLUE上提升近1个点:

效果还是很硬的。有意思的是,这篇文章的方法在去年年底(2020.12.20)就有了,当时是第一个在SuperGLUE上超越人类的方法,但不知为什么最近(2021.9.19)才发出来(可能圣诞节去休假了?)。

题目:Towards Zero-Label Language Learning
地址:https://arxiv.org/abs/2109.09193

原理

作者的motivation主要是把大模型生成和预测解耦。虽然完形填空or语言模型的预测方式已经被证明有效,但作者认为Prompt的效果主要是因为X和Y再训练语料中有共现,而且在真实语料里,Y经常在X前面,所以Prompt的预测模版会导致训练和生成的不一致,是次优解

所以作者采用Y->X的方式,把大模型的知识拿到之后再去训练下游模型。

这篇文章的方法还是挺优雅的,输入由三部分构成:

  1. 任务描述:很短的一句话,比如「Yelp Review」

  2. 文本样例:这个样例也是没有label的,比如分类任务,就输入一些待分类的文本,论文里是32个。而文本对任务就输入一些文本对,不给标签或者说unknown

  3. Label:也是文字描述,用来指导模型的输出

举个简单的例子,比如你是一个模型,我和你说:咱们来做一个情感分类任务,输入的句子可以是「这家店的火锅真香」、「昨天分手了,想哭」,请问还有什么表达高兴的句子?

比较有意思的是输入样例这个点,完全没有标签,却能指导模型,说明模型里真是有不少东西。而且输入样例个数K对效果的影响还挺大:

效果

真正用到下游精调的时候,作者还是稍微清洗了下数据,采用NLA(Noisy Label Annealing)方法,把精调模型预测结果和label差距太大的删掉。效果提升了0.2-0.8左右。

最终在T5-XXL单模型上超越了BERT系列的模型:

而且比Prompt-tuning的效果也更好,下图是Prompt-tuning的效果截图(不过ensemble后难分伯仲):

总结

这篇文章的主要贡献是验证了在完全无监督的情况下,用大模型生成训练语料的可行性。这样的好处是有了训练语料后,对大模型的依赖就停止了,我可以再训练一个更小的模型保证线上速度。同时这又跟蒸馏有点像,只不过之前的蒸馏都是学习teacher的隐层分布,而UDG直接把知识拿出来再去学习,可解释性和可控性更强

卷到现在,大模型的应用方式越来越可控且多样了,可以直接用它做下游任务,也可以把它的知识拿出来学习。

那我们再进一步想,是不是通过Prompt、Instruction得到的Y和输入X也可以作为训练数据?而且Instruction的结果可能更加准确(做判别比做生成容易),兜兜转转又回到了知识蒸馏上?


大家好我是rumor

一个热爱技术,有一点点幽默的妹子

欢迎关注我

带你学习带你肝

一起在人工智能时代旋转跳跃眨巴眼

「最近Paper超多,着急」

谷歌新大招UDG|直接生成训练数据送给你相关推荐

  1. 点云语义分割标注工具及生成训练数据

    1.软件的安装     (1)下载后随便你解压到那个文件夹下(软件github地址)     github链接     (2)在终端中运行: curl https://install.meteor.c ...

  2. 谷歌新工具AdID将垄断追踪数据

    谷歌准备推出一种名为AdID的匿名广告标识符,用于替代广告商出于营销目的追踪用户网上浏览活动的第三方Cookie.在广告市场上,AdID将秒杀微软.Facebook和苹果现有的模式,让谷歌建立起新的垄 ...

  3. 谷歌BERT预训练源码解析(一):训练数据生成

    目录 预训练源码结构简介 输入输出 源码解析 参数 主函数 创建训练实例 下一句预测&实例生成 随机遮蔽 输出 结果一览 预训练源码结构简介 关于BERT,简单来说,它是一个基于Transfo ...

  4. 【pytorch】MobileNetV2迁移学习+可视化+训练数据保存

    一.前言 由于写论文,不单单需要可视化数据,最好能将训练过程的完整数据全部保存下来.所以,我又又又写了篇迁移学习的文章,主要的改变是增加了训练数据记录的模块,可以将训练全过程的数据记录为项目路径下的E ...

  5. 人脸识别0-02:insightFace-模型训练与训练数据制作-史上最全

    以下链接是个人关于insightFace所有见解,如有错误欢迎大家指出,我会第一时间纠正,如有兴趣可以加QQ:944284742相互讨论技术. 人脸识别0-00:insightFace目录:https ...

  6. NLP中数据增强的综述,快速的生成大量的训练数据

    作者:amitness编译:ronghuaiyang 导读 深度学习视觉领域的增强方法可以很大程度上提高模型的表现,并减少数据的依赖,而NLP上做数据增强不像在图像上那么方便,但还是有一些方法的. 与 ...

  7. 2023年AI十大展望:GPT-4领衔大模型变革,谷歌拉响警报,训练数据告急

    新年伊始,大模型的话题热度不减.2022年11月底,ChatGPT展现的惊人能力将大模型研究和应用热度推向高潮,人们激烈讨论着这个高级"物种"的推出意味着什么,比如是否会颠覆搜索引 ...

  8. 训练数据较少时如何生成更多的数据

    在图像和物体识别方面,计算机表现优于人类. 像Google和Microsoft这样的大公司在图像识别方面已经超越了人类基准[1,2].平均而言,人类大约有5%的时间在图像识别任务上犯了错误.截至201 ...

  9. 10小时训练数据打造多语种语音识别新高度

    本文联合撰写: 腾讯:吕志强,颜京豪,胡鹏飞,康健,阿敏巴雅尔 导语|在刚刚结束的NIST OPENASR评测中,TEG AI语音联合清华大学,刷新世界小语种语音识别比赛6项第一.从2000年开始,N ...

最新文章

  1. 响应格式html,设置响应格式的HTML邮件
  2. SAP ABAP Netweaver里的胖接口(fat interface)
  3. 用navicat连接数据库报错:1130-host ... is not allowed to connect to this MySql server如何处理
  4. Golang时间格式化
  5. 报“parseSdkContent failed java.lang.NullPointerException”的错误。
  6. php sqlite视图,SQLite 视图
  7. RNN、GRU、LSTM
  8. 分享6个关于自主学习的思维导图模板
  9. 步进电机 步进电机驱动器
  10. UML 基本模型元素
  11. 键盘调节台式计算机声音,键盘打字音效怎么设置 让键盘打字发出机械键盘声音方法...
  12. 人人网模拟用户登陆行为后进入包贝尔的个人主页
  13. 塔望食业洞察|轻食代餐消费洞察、市场现状、竞争格局及未来趋势
  14. POC_3COM NJ2000
  15. 安全自动化企业网络架构 (毕设分享)
  16. 《中华百寺》专题片开机 江苏13古刹入选百大名寺
  17. 南方医科大学近日拟对11名博士研究生、5名硕士研究生作退学处理!
  18. Xcode更改包名和APP名称
  19. 市面上主流源表软件全面对比,总有一款适合你!
  20. perl-操作ole,比如操作word

热门文章

  1. 装箱问题(Packing Problem)
  2. 三星530换固态硬盘_三星迷你固态硬盘Portable SSD T7 Touch试用 支持指纹识别设备...
  3. 【吴刚】iOS原生图标设计原理与绘制技巧标准教程-吴刚-专题视频课程
  4. WebGIS开发和Web开发的区别
  5. ElasticSearch与SpringBoot的巨坑
  6. 管理3.0-培养和提升敏捷领导力摘抄和笔记
  7. (含PPT)MySQL托管服务架构及读写分离的优化
  8. 数据质量分析之校验规则模板
  9. 晶振的频率误差,负载电容,匹配电容及IC内置补偿电容
  10. 用matlab画多普勒加宽线性函数,MTD雷达中多普勒滤波器组的设计与实现