reStructured Pre-training

论文中有一句话说得很好,这是prompted pretraining的过程,模型在pretrained的阶段,就像是在学习下游任务。
任务以生成任务的范式建模为统一的形式。

非常值得一阅。非常。

前言

整个IE经过的发展时期:
是不是大约每10年经过一轮变更?
不对,变更的时间在不断的缩减。
传统机器学习的时代在2011年左右接近尾声,之后,深度学习时代,18年,bert出现,开始转入模型结构时代,21年,提示学习开始崭露头角,22年,回归数据,数据结构化再次被关注。
paperweekly的讲解:https://blog.csdn.net/qq_27590277/article/details/125494870

论文中的原话是:数据的作用将被再次强调,模型的预训练和下游任务的微调被看作是一个数据存储和访问的过程。

技术的迭代总是沿着这样的方向发展,即系统开发者可以通过做更少的事情来设计一个更好和更普遍的系统。
在克服了一些工程上的挑战后,在由各种有价值的信息组成的重组数据上预训练模型,而不是原始数据。


1. 信号的定义 信号是有用的信息,可以为特定任务的知识学习服务,并指导模型进行学习优化。作为结构化学习的第一步,我们首先需要弄清楚世界上自然存在的、收集到的、可用的信号是什么。
2. 数据矿识别 在现实世界中,我们可以获得各种数据源,如新闻网站、维基百科、知识库,甚至是在线视频。数据矿是指富含不同类型信号的数据集合。一旦信号被定义,搜索合适的数据矿就有望实现(§3.2)。
3. 信号提取 如何从数据矿中有效地提取信号对重组学习也很重要。 我们将在第3.3节中详细介绍我们如何从信号源中挖掘信号。
4. 信号重组 这个过程关心的是如何用统一的格式表示所有类型的信号,缩小数据存储和数据检索之间的差距。我们将在第3.5节中详细介绍。
5. 预训练和调整 这个过程关心的是什么是理想的预训练结构,以便所有重组的信号可以有效地用于模型预训练。我们将在第3.6节中详细介绍。

标红的是我认为比较重要的项目。

信息提取过程涉及到了一些数据挖掘、数据重构、数据清洗的过程。

信息重组关键在于“怎么把信号尽可能的统一?”

文中对于信号的分类:按照模态、功能、寄生环境分为如下几大类:

信号和下游任务的关系:

总结了42个任务。
总结类、分类、时序判断…

数据格式采用的元组的形式。(text,summary)/(text,title) / (answer,title) / (review,sentiment) / (text,subject,property,object)

提示学习模板

  1. multiple-choice format
  2. generation format

I like this movie. Is this text ‘‘positive" or
‘‘negative"? while a generation format prompt could be the following: I like this movie. What’s
the sentiment of the previous text?. We use two special markers: “TEXT:” and “QUERY:” to
separate the general context and the intended task to be completed

评估和评测部分未介绍。

刘鹏飞_2022_reStructured Pre-training相关推荐

  1. CMU 刘鹏飞:NLP的第四范式

    近两年,基于预训练+精调的研究范式,迅速席卷了整个 NLP 领域.这种研究范式被大家普遍认同为是 NLP 研究的革命性范式,在此之前则有"专家系统"."统计模型" ...

  2. 刘鹏飞 袁玮哲:自动生成论文评审意见!AI可以取代审稿人吗?

    2021一开年,众多顶会投稿截止日期也在日渐邻近. 各大AI顶会论文呈现井喷之势的同时,审稿人们也在花费越来越多的精力在审稿过程中.作者们越来越普遍地开始抱怨会议中的论文评审随机性增加.不公正现象出现 ...

  3. 直播 | CMU博士后刘鹏飞:文本生成任务十大发展趋势(2020-2021)

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  4. 复旦大学计算机学院博士生王斌,复旦大学计算机科学技术学院博士生刘鹏飞荣获...

    计算机科学技术学院发布时间:2017-01-04 小字体 中字体 大字体 2016年12月22日,历时七个月选拔的2016年度百度奖学金获奖者揭晓,复旦大学计算机科学技术学院2014级博士生刘鹏飞以其 ...

  5. 二流学校的计算机博士,二流大学-复旦大学计算机科学技术学院博士生刘鹏飞荣获2016年度百度奖学金...

    2016年12月22日,历时七个月选拔的2016年度百度奖学金获奖者揭晓,复旦大学计算机科学技术学院2014级博士生刘鹏飞以其在"自然语言处理与深度学习"上取得的突出成绩,从国内外 ...

  6. NLP第四范式:Prompt概述【Pre-train,Prompt(提示),Predict】【刘鹏飞】

    一.概述 1.prompt的含义 prompt顾名思义就是"提示"的意思,应该有人玩过你画我猜这个游戏吧,对方根据一个词语画一幅画,我们来猜他画的是什么,因为有太多灵魂画手了,画风 ...

  7. 知识图谱如何助力文本摘要生成

    来源:丁香园大数据 本文约3800字,建议阅读8分钟 本文基于摘要生成,重点考虑如何帮助模型生成特定领域的知识点,并简要介绍一些用于应对无关重复这类退化现象的方案. 引言 文本生成类任务应用场景广泛, ...

  8. 线下活动 × 深圳 | 大咖云集!第11届国际博士生论坛报名开启

    国际博士生论坛(International Doctoral Forum)是由清华大学和香港中文大学于 2006 年联合发起的一项学术交流活动,至今已有 12 年的历史.2014 年起西北工业大学参与 ...

  9. 还在 Fine-tune 大规模预训练模型? 该了解下最新玩法 Prompt-tuning啦

    写干货不易,点个赞再走吧! 由于预训练模型经过了预训练的学习,因此其本身已经拥有了一定的特征抽取(挖掘)能力,是个"三好学生":而大规模预训练模型在此基础上由于参数量众多,因此结合 ...

最新文章

  1. java B2B2C 源码 多级分销Springcloud多租户电子商城系统- 整合企业架构的技术点(二)...
  2. 解决media player内部应用程序错误
  3. linux命令中提取某一列,怎么用Linux命令提取表格文本中的某列
  4. 上半年银行罚单不断,7月越早贷款越有利
  5. common lisp 学习第一天 初步接触
  6. python代码实例sicket_Python socket聊天脚本代码实例
  7. java cpu 内存使用情况_java高cpu占用和高内存占用问题排查 (转)
  8. STM8学习笔记---PWM变频输出
  9. poj 3590 The shuffle Problem——DP+置换
  10. 小米澄清「手机不再支持GMS」;虾米音乐正式关停;《质量效应1》DLC 因源代码损坏而移除 | 极客头条...
  11. Mybatis-Plus 使用操作_1
  12. 昨晚学妹参加了B站秋招笔试,还想考考我?
  13. 【大数据部落】R语言多元Copula GARCH 模型时间序列预测
  14. 计算机组成原理课后答案蒋本,计算机组成原理习题答案(蒋本珊).doc
  15. 自媒体原创度检测工具有哪些?这几个可以免费用
  16. otg usb 定位_USB接口中的秘密——强大的OTG功能
  17. Word文档没保存电脑死机了,重启打开文档一片空白怎么办?
  18. 依据前端传递的数字等生成二维码图片
  19. 云计算时代的域名解析
  20. Day 7 输出m到n之间的素数

热门文章

  1. Edge导出crx插件Chrome安装本地的crx插件
  2. Python递归小案例,斐波那契,阶乘等小案例
  3. BUUCTF [NCTF2019]childRSA(费马小定理)
  4. python运行js---execjs 使用
  5. execjs 模块 call() 方法报错 AttributeError: ‘NoneType‘ object has no attribute ‘replace‘
  6. prometheus +granfana监控告警
  7. 重定向(Redirect)和请求转发(forward)的区别?
  8. Android中一个app启动另一个app|从浏览器打开app
  9. 主动触控笔_如何自定义表面笔触控笔
  10. 旅游攻略app开发定制