#今日论文推荐#NAACL 2022 | 基于Prompt的文本生成迁移学习

预训练语言模型(PLM)通过微调在文本生成任务方面取得了显著进展。然而,在数据稀缺的情况下,微调 PLMs 是一项挑战。因此,开发一个通用且轻量级的,可以适应各种文本生成任务的模型,是非常重要的。
在本文中,作者提出了一种新的基于 prompt 的文本生成方法 PTG。首先针对几类源任务分别学习最优的 prompt,然后迁移转化为目标任务的目标 prompt。为了同时考虑任务级和实例级信息,作者还设计了一种自适应注意机制来导出目标 prompt。实验表明,PTG 方法获得了比微调方法更好的结果。

在自然语言处理中,文本生成旨在从输入数据自动生成人类语言中可理解的文本。通过在大规模通用语料库上预训练的大规模参数,GPT-3 等大规模预训练模型(PLMs)在文本生成方面取得了实质性进展。通过微调范式(finetune paradigm),PLMs 可以直接通过调整模型参数来适应各种文本生成任务。然而在现实场景中,不可避免地存在只有有限标记数据的任务,这就给微调模型带来了困难。最近提出的基于提示了(prompt)的学习提供了一种潜在的解决方案 [1]。在这个范式中,文本生成任务可以通过包含任务特定信息的提示来解决。例如,T5 可以通过 propmt “summarize” 和 “answer the question” 分别将摘要问题和 QA 问题转化为一般的文本生成任务格式。由此,通过可学习的或手动设计的 prompt,可以让 PLMs 不通过微调直接应用到新的生成任务上。尽管前景广阔,利用 prompt 指导的文本生成仍存在两大挑战。首先,已经发现 prompt 具有高度的任务特异性 [2],也即一个任务上的 prompt 很难有效地转移或重用到新任务;其次,对于单个任务,即使是学习良好的 prompt 也可能不适用于大数据集中的所有数据实例 [3]。因此,在设计 prompt 时需要同时考虑任务级特征和实例级特征,从而使 prompt 有效迁移。为了解决上述问题,作者提出了一种新的基于 prompt 的文本生成迁移学习方法 PTG。首先,从许多具有代表性的源任务中学习 source prompt,然后将这些 prompt 进行迁移,以生成 target prompt 执行目标任务。作者构建了一个多密钥存储网络,用于存储源提示和提示簇;设计了一种同时考虑任务和实例级信息的自适应注意力机制,以导出目标 prompt。本文的方法可以有效的从特定数据实例的 prompt 中学习最合适的表示,考虑到了实例级特征,从而可以将现有任务的 prompt 更灵活地转移到新的文本生成任务中。作者在来自三组文本生成任务的14个数据集上测试了 PTG 方法,在全监督和 few-shot 实验中,PTG 均取得了比微调范式有竞争性甚至更好的结果。

论文题目:Learning to Transfer Prompts for Text Generation
详细解读:https://www.aminer.cn/research_report/6310b2917cb68b460f117a17https://www.aminer.cn/research_report/6310b2917cb68b460f117a17
AMiner链接:https://www.aminer.cn/?f=cs

#今日论文推荐#NAACL 2022 | 基于Prompt的文本生成迁移学习相关推荐

  1. #今日论文推荐#WSDM 2022 | 基于双曲几何无标度图建模的知识感知推荐

    #今日论文推荐#WSDM 2022 | 基于双曲几何无标度图建模的知识感知推荐 为了缓解传统推荐系统中的冷启动与数据稀疏问题,近年来,向推荐系统中引入外部知识构建知识图谱受到了越来越多的关注.此外,由 ...

  2. #今日论文推荐# ICDE 2022 | 港大等提出:基于时空自监督学习的犯罪预测

    #今日论文推荐# ICDE 2022 | 港大等提出:基于时空自监督学习的犯罪预测 犯罪问题已成为许多城市关注的主要问题,准确的犯罪预测对于政府相关部门的事先决策至关重要.预测城市中每个地理区域的城市 ...

  3. #今日论文推荐# IJCAI 2022 | 求同存异:多行为推荐的自监督图神经网络

    #今日论文推荐# IJCAI 2022 | 求同存异:多行为推荐的自监督图神经网络 个性化推荐系统在现在的网络平台(或应用)中已经得到了广泛的应用,已解决它们面对的信息过载的问题.大多数推荐模型都是基 ...

  4. #今日论文推荐#ACL 2022 | 引入角度margin构建对比学习目标,增强文本语义判别能力

    #今日论文推荐#ACL 2022 | 引入角度margin构建对比学习目标,增强文本语义判别能力 聚焦的问题:近年来基于对比学习的句子表示学习研究取得了较大的进展,但是大多数方法都只关注如何挑选对比学 ...

  5. #今日论文推荐#CVPR 2022 | 道高一尺,魔高一丈,ConvNet还是ViT?

    #今日论文推荐#CVPR 2022 | 道高一尺,魔高一丈,ConvNet还是ViT? 作者在 Introduction 部分里,从 ConvNet 的前世今生开始讲起,并且在第二段就表明了一个观点: ...

  6. #今日论文推荐#CVPR 2022 | 只需要一组预训练参数,所有恶劣天气一次解决

    #今日论文推荐#CVPR 2022 | 只需要一组预训练参数,所有恶劣天气一次解决 最近CVPR'22的文章已经放出来了,发现了这篇能够一次解决所有恶劣天气的算法,相当有趣以及新颖,因此整理下来分享给 ...

  7. #今日论文推荐#ECCV 2022 | 清华字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏

    #今日论文推荐#ECCV 2022 | 清华&字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏 知识蒸馏主要可以分为logit蒸馏和feature蒸馏.其中feature蒸馏具有更好的拓 ...

  8. 【每周CV论文推荐】初学基于GAN的三维图像生成有哪些经典论文需要阅读

    欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 当前二维图像生成领域的发展已经非常成熟,但是 ...

  9. #今日论文推荐# 阿里达摩院最新FEDformer,长程时序预测全面超越SOTA | ICML 2022

    #今日论文推荐# 阿里达摩院最新FEDformer,长程时序预测全面超越SOTA | ICML 2022 时间序列预测在众多领域中(例如电力.能源.天气.交通等)都有广泛的应用.时间序列预测问题极具挑 ...

最新文章

  1. 费马小定理与素数判定
  2. JavaScript——易班优课YOOC课群在线测试自动答题解决方案(八)功能面板
  3. Ngrx Store实现源代码的MemoizedSelector学习笔记
  4. vb趣味编程弹球小游戏_最好玩的微信小游戏集合,总有一款是你没玩过的
  5. Android中URI的格式
  6. postgresql如何让主键自增
  7. JavaNIO编程基础-图解JavaNIO内存模型
  8. 22.Silverlight使用WebService调用C++,Delphi编写的DLL文件
  9. complete_code_Chapter1
  10. javaweb增删改查实例_JavaWeb图像可视化管理系统之后台搭建(二)用户管理与增删改查(内含代码)...
  11. docker images存放路径指定
  12. iphone NSString 字符串处理:截取字符串、匹配字符串、分隔字符串
  13. 酷狗歌词Krc批量转换工具Lrc [附转换编码DLL]
  14. Python任意输入若干数求和
  15. 彰显互联网基因:大数据引发互联网原创综艺革新。。
  16. 宝妈新手小白,在家用手机做语录短视频,一周赚了2000多
  17. httpclient Post请求 参数用des加密
  18. css水平垂直居中各种方法实现方式
  19. IT之路如何走得更远
  20. 常用Emment语法

热门文章

  1. 产品设计体会(二三)——用户研究
  2. web页面跳转:当前窗口/新窗口
  3. POJ3666-Making the Grade-dp
  4. 《大型网站技术架构原理与解析》第八章 固若金汤:网站的安全架构
  5. JavaScript中到底要不要写分号呢?
  6. access的是/否类型对应的数字是什么?
  7. 2015年语音识别文献阅读报告
  8. 【docker】使用docker安装宝塔面板
  9. android apps,我手机在用的Android Apps
  10. Android一键拍照功能