【论文极速读】Prompt Tuning——一种高效的LLM模型下游任务适配方式

FesianXu 20230928 at Baidu Search Team

前言

Prompt Tuning是一种PEFT方法（Parameter-Efficient FineTune），旨在以高效的方式对LLM模型进行下游任务适配，本文简要介绍Prompt Tuning方法，希望对读者有所帮助。如有谬误请见谅并联系指出，本文遵守CC 4.0 BY-SA版权协议，转载请联系作者并注明出处，谢谢。
$\nabla$ 联系方式：

e-mail: FesianXu@gmail.com

github: https://github.com/FesianXu

知乎专栏: 计算机视觉/计算机图形理论与应用(https://www.zhihu.com/column/c_1265262560611299328)

微信公众号：机器学习杂货铺3号店

众所周知，当前LLM是人工智能界的香饽饽，众多厂商和研究者都希望能够在LLM上进行应用推广和研究，这就难免需要对LLM进行下游任务的适配，最理想的情况当然是可以用私有数据，进行全网络端到端的微调。但是LLM现在参数量巨大，大部分都大于6B，有些甚至达到了100B以上，即便是端到端微调都需要大量的硬件资源。 PEFT(Parameter-Efficient FineTune)旨在最高效地引入参数，探索合适的训练方式，使得LLM适配下游任务的代价最小化，而本文提到的Prompt Tuning [1] 就是这样一个工作。

在介绍这个工作之前，我们得知道什么是prompt，关于prompt的内容之前在博文[2]中曾经介绍过，简单来说，就是用某种固定的模板或者范式，尝试去让LLM去适配下游任务，从在prompt中是否提供例子的角度上看，又可以分为one-shot prompt, few-shot prompt, zero-shot prompt等。但是，在文章[3]中提到过，不同的prompt模板对性能的影响巨大，如Fig 1.所示，我们也把这种prompt称之为硬提示词（hard-prompt）。既然有『硬』的，那么就肯定有『软』的prompt，soft-prompt指的是模型可以通过学习的方式去学习出prompt模板，经典工作包括P-Tuning [3], prefix prompt [4], soft prompt [5]，以及本文将会介绍到的prompt tuning [1]。

Fig 1. 不同的prompt模板对性能影响巨大

如Fig 2.所示，在prompt tuning中，在原有hard prompt模板之前拼接了若干个可学习的token，我们用 $\mathbf{P} \in \mathbb{R}^{p \times d}$ 表示soft prompt部分，其中 $p$ 为拼接的token数量，用 $\mathbf{X} \in \mathbb{R}^{n \times d}$ 表示hard prompt部分。那么，完整的prompt可表示为 $[\mathbf{P};\mathbf{X}] \in \mathbb{R}^{(p+n) \times d}$ ，模型的目标既变为了 $P(\mathbf{Y}|[\mathbf{P};\mathbf{X}])$ 。此时，LLM的参数和embedding层的参数都是设置为不可学习的 (❄)，整个网络只有soft prompt层是可学习的（

【论文极速读】Prompt Tuning——一种高效的LLM模型下游任务适配方式相关推荐

【论文极速读】VQ-VAE：一种稀疏表征学习方法
[论文极速读]VQ-VAE:一种稀疏表征学习方法 FesianXu 20221208 at Baidu Search Team 前言最近有需求对特征进行稀疏编码,看到一篇论文VQ-VAE,简单进行笔 ...
【论文极速看】ERNIE-VIL 一种基于场景图解析的多模态表征方法
∇ 联系方式: e-mail: FesianXu@gmail.com github: https://github.com/FesianXu 知乎专栏: 计算机视觉/计算机图形理论与应用微信公众号: ...
Prompt Pre-training：迈向更强大的Parameter-Efficient Prompt Tuning
©PaperWeekly 原创 · 作者 | 李国趸单位 | 浙江大学硕士生研究方向 | 少样本学习前言从 prompt learning 的发展来看,一开始关注的是将任务建模成和预训练相近的 ...
prompt tuning
Prompt-Tuning--深度解读一种新的微调范式 prompt tuning 整体解读连续pattern构建论文解读整理 prompt tuning 整体解读 1级:Prompt是一种对任务的 ...
【NLP】五万字综述！Prompt Tuning：深度解读一种新的微调范式
作者 | 王嘉宁整理 | NewBeeNLP https://wjn1996.blog.csdn.net/article/details/120607050 这绝对是我看过最全面细致的Prompt ...
【论文速读】RandLA-Net大规模点云的高效语义分割
点云PCL免费知识星球,点云论文速读. 文章:RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds 作者:Qi ...
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks论文笔记
论文链接:P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks ...
《CPT COLORFUL PROMPT TUNING FOR PRE-TRAINED》论文笔记
文章目录摘要 1. NTRODUCTION 2 PRELIMINARY 3. CROSS-MODAL P ROMPT TUNING (CPT) 3.1 OVERVIEW 3.2 VISUAL SUB ...
【论文精读】COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection
[论文精读]COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection [论文原文]:KiPT: Knowledge- ...
超高分辨率图像内存高效分割的协同全局局部网络论文简读
code: https://paperswithcode.com/paper/190506368 文章目录 1摘要 2论文的贡献 3协作性的全局-局部网络 3.1 Motivation: Why No ...

【论文极速读】Prompt Tuning——一种高效的LLM模型下游任务适配方式

前言

【论文极速读】Prompt Tuning——一种高效的LLM模型下游任务适配方式相关推荐

最新文章

热门文章