原文链接: https://arxiv.org/abs/2108.02035
本文参考了舍友的一篇知乎链接:https://zhuanlan.zhihu.com/p/398009000
希望大家也多多支持~

intro

这是一篇清华刘知远老师组在arxiv上放出来了Prompt-tuning相关的新工作,本文是promp应用于文本分类的一篇工作,应用一种基于外部知识库的 prompt tuning(knowledgeable prompt tuning,简称kpt),
KPT包含以下三个步骤:

  1. 标签词的扩展
  2. 扩展标签词的去噪
  3. 语言表达器的使用
    在few shot 与zeroshot任务中与不错的表现,具体方法如下:


从总体思路来说,作者使用外部kb为每个标签生成一组扩展标签单词(每个类生成100多个相关的标签词),并根据Prompt-tuning的核心思想:

  1. 在输入x中插入文本片段(前缀),构建出mask 1 token的模板(Pattern)
  2. 在输出y,将label 用一个语言表达器(verbalizer)映射至lablel的扩展词上
  3. 问题转化成输入为模板,输出为label related word,且分类问题转化为掩码语言建模问题
    模板Xp的样例如下

    利用MLM模型预测【mask】位置单词,通过预训练模型M计算出 扩展标签词集 中的每个标签词v分别放入mask token位置时的概率

    最后通过g函数将空间从标签词概率映射到标签概率:

    这样也就完成了分类,基于上述主思想,作者提出了一种上下文的校准方法消除扩展词v中的噪声。并探讨了利用扩展v的普通平均和加权平均方法。

Method

具体讲,KPT分为构建,细化,利用三部分:

1. 构建

重点是如何在主题分类和情绪分类中引入外部知识构建扩展标签词。对于主题分类,利用concept net与word net等方法引入相关词,通过边缘表示相关性筛选。情绪这种二元分类,作者引入前人构建的情感字典获得扩展词,最终构建扩展标签词词汇表,示例如下:

2.细化,

作者将细化分为两个场景,zero shot&few shot.

zero-shot场景

面临以下三个问题

  1. 知识库中得到的扩展词,并不在PLM的单词空间中(out-of-vocabulary)
  2. PLM中的稀有词,概率预测往往不准确
  3. 标签词的先验分布具有巨大的偏差

对于第1个问题:

本文简单的将词拆分成逐token的多个部分,并用PLM逐token预测的平均概率,作为整个词的概率。

对于第2个问题:

对于一些稀有词,PLM预测的概率不准确(其实是不稳定),故最好在标签扩展单词表中删去这些稀有词。本文使用MLM去预测句子上下文中这个单词的概率,即如下面这个概率的期望:


xp是模板,即在这个模板下,通过MLM模型预测【mask】为标签扩展词的条件概率的期望。然而这样的概率分布很难直接估计,本文作者假定了一个小尺寸的未标注的support集C作为上下文,并假设c中的样本均符合均匀分布,则上下文的分布为:


最后我们删去那些概率低于设定阈值的扩展词。

对于第3个问题:

无论输入句子的标签如何,但有一些标签词天然地更不可能被预测到,这是由于标签词的先验分布具有很大差异。本文的解决方案,仍然是利用标签词的上下文先验分布来校准预测的分布。我理解是对预测概率(分子)与上下文分布(分母)做了一个对齐操作。

对于few-shot场景

在few-shot中,因为有少量的标注数据,所以去噪更容易。对于每个标签词,我们为其分配一个可学习的权重参数,然后再将其归一化,得到:


在few-shot情况下,我们不需要进行校准,因为训练过程中这个参数会被训练到所需的范围。

3.细化

细化的是语言表达器(verbalizer)的使用,同样分为两个场景
在zero-shot情况下
我们简单地认为扩展词中每个词对于预测标签的贡献相同,因此我们对其进行简单平均,并用预测分数的均值作为该标签的预测分数,最后取出预测分数最大的类别,作为最后的结果。

在few-shot情况下
我们既然已经得到了一个权重参数,我们将其视作扩展词中每个词对于预测标签的贡献度,因此我们将其进行加权平均。

其中

Experiment

本文使用的预训练语言模型是RoBERTa(large)。每个数据集都手工设置了4个不同的模板,如对于,IMDB数据集

然后对比实验包括:
Prompt-tuning (PT)
Prompt-tuning + Contextualized Calibration(PT + CC)
Fine-tuning (FT)
其中第二个是传统的Prompt-tuning加上本文使用的上下文校准。

第三个则是简单的微调。

实验结果如下图所示:

zero-shot实验结果

few-shot实验结果

KPT方法的其中一个显著优点是,由于引入了外部知识,因此生成的标签扩展词,是多粒度、多角度的。下图展示了一个示例:

可以看到,对于政治主题(左),KPT方法生成了“diplomatic”(外交), “republic”(共和),“parliament”(议会)等多个主题的扩展词,证明了这一观点

个人总结: 其实依旧是基于之前工作的小创新,思路是数据增强+去噪,不过数据增强在于verbalizer对于label space至word space的映射,引入外部的扩展标签词集,辅助分类,去噪并不新颖,就是在细化两个场景,zeroshot滤掉扩展标签词集的低频词,并上下文校验。fewshot则是引入可学习权值,减小噪声影响。


【ACL2022】Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text相关推荐

  1. 【中途相遇法】【STL】BAPC2014 K Key to Knowledge (Codeforces GYM 100526)

    题目链接: http://codeforces.com/gym/100526 http://acm.hunnu.edu.cn/online/?action=problem&type=show& ...

  2. Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classification

    1 标题+作者 KPT,将知识引入Prompt Verbalizer 处理文本分类任务,清华大学 2 摘要 在低数据场景下,Prompt-tuning(PT)比fine-tuning(FT)效果好,P ...

  3. 【NLP】五万字综述!Prompt Tuning:深度解读一种新的微调范式

    作者 | 王嘉宁 整理 | NewBeeNLP https://wjn1996.blog.csdn.net/article/details/120607050 这绝对是我看过最全面细致的Prompt ...

  4. 直播活动丨BMMeetup第1期:大模型Prompt Tuning技术,8场学术报告和Poster提前下载...

    「Big Model Meetup」系列活动是由智源研究院悟道团队.青源会.清华大学计算机科学与技术系博硕论坛.中国中文信息学会青年工作委员会共同组织,智源社区提供社区支持,PaperWeekly提供 ...

  5. 线下活动丨Big Model Meetup 第1期:大模型Prompt Tuning技术,8场学术报告和Poster展示...

    「Big Model Meetup」系列活动是由智源研究院悟道团队.青源会.清华大学计算机科学与技术系博硕论坛.中国中文信息学会青年工作委员会共同组织,智源社区提供社区支持,PaperWeekly提供 ...

  6. 【NLP】Prompt-Tuning这么好用?

    作者:十方 使用prompts去调节预训练模型处理文本分类任务在小样本上已经取得了比直接finetuning模型更好的效果,prompt-tuning的核心思想就是嵌入一小段文本,比如对于文本分类任务 ...

  7. Prompt Pre-training:迈向更强大的Parameter-Efficient Prompt Tuning

    ©PaperWeekly 原创 · 作者 | 李国趸 单位 | 浙江大学硕士生 研究方向 | 少样本学习 前言 从 prompt learning 的发展来看,一开始关注的是将任务建模成和预训练相近的 ...

  8. 【CV】54篇最新CV领域综述论文速递!涵盖14个方向:目标检测/图像分割/医学影像/人脸识别等方向...

    文章来源于极市平台,作者CV开发者都爱看的 [导读]本文共汇总了从2020年4月至今的计算机视觉领域综述性论文,共54篇,涵盖图像分割. 图像识别.人脸识别/检测.医学影像.目标检测.3D方向(自动驾 ...

  9. 【原】移动web资源整理

    [原]移动web资源整理 回顾2014年,刚转来到新的部门,非常渴望做出一个所谓的成功产品,心态几乎变了,每天都忙忙碌碌在项目中,把原来阅读和学习的习惯给忽视了,作为一个技术人员,没有通过学习新的知识 ...

最新文章

  1. 电子自动窗帘系统c语言程序,单片机自动窗帘控制程序(两个电机)
  2. WCF关于svcutil生成关于TCP绑定出现 元数据包含无法解析的引用:“net.tcp://127.0.0.1:9999/xxxx/”的解决方案...
  3. 【渝粤教育】国家开放大学2019年春季 0408-22T管理学基础 参考试题
  4. Depth-first Search深度优先搜索专题5
  5. axure 元件_在Axure中实现波纹点击特效按钮的方法
  6. 在html表格中怎么创建下拉列表,在html网页中如何做个下拉列表?下拉列表的方法有哪几种?...
  7. AI学习笔记(十五)自然语言处理基本概念
  8. ArrayList源码简单剖析 及与linkedlist vector 区别
  9. Qunee For Html5 开发清新、高效的拓扑图组件
  10. 阅读--2020-7-19 CCFC2019 使用向量自回归和堆积LSTM模型进行多变量工作量预测
  11. 综治应急指挥中心建设方案
  12. gif动图怎么制作?怎么截取视频做成gif动图?
  13. mvc 实体类 自定义验证特性
  14. Excel不能自动求和的可能原因
  15. 大型网站技术架构-核心原理与案例分(李智慧 著)第1章-大型网站架构演化
  16. Web测试方法与技术之CSS讲解
  17. 如何让自己时刻冷静的方法_情绪激动时如何冷静下来?教你4招很管用
  18. 高铁只接触一根电网,具体是怎么运行的呢
  19. Words Of Wisdom
  20. 屏幕时间:管理与限制手机各APP使用时间——又名【限制儿童使用手机攻略】——相关主题【救救网瘾少年】

热门文章

  1. 问题描述:maven本地仓库有包,导致could not find artifact * * * 问题!
  2. 设置Word2007默认打开所有文档的显示比例为100%
  3. UE4 如何设置多屏
  4. 百度索引量是什么意思?及如何提高索引量?
  5. 2021年制冷与空调设备运行操作考试题库及制冷与空调设备运行操作最新解析
  6. python课程之猴子爬山算法
  7. 一起吹过海风的人大概会记得久一些​​,手机壁纸
  8. MongoTemplate入门
  9. 迅雷看不了html,迅雷看看不能看,可以打开看看网页,但必须刷新才能看到画面的移动,? 爱问知识人...
  10. 《我的价值观》 潘石屹