论文阅读_Self_instruct
论文信息
name_en: Self-Instruct: Aligning Language Model with Self Generated Instructions
name_ch: 自引导:用自我生成的指令调整语言模型
paper_addr: http://arxiv.org/abs/2212.10560
date_read: 2023-03-16
date_publish: 2022-12-20
tags: [‘深度学习’,‘自然语言处理’]
author: Yizhong Wang, University of Washington
citation: 9
code: https://github. com/yizhongw/self-instruct
读后感
文中提出了自引导框架,之前引导精调主要使用人工处理的数据,数据量和范围都有限,本文通过示范少量引导示例,让模型自己生成引导数据对模型进行优化。
摘要
用引导数据精调模型提升了模型适应新任务的能力,它依赖于人工的引导数据,在数量、多样性和创造力方面受到限制,因此阻碍了精调模型的通用性。文中提出了自引导框架,通过自引导来提高预训练语言模型的指令遵循能力。经过自引导可使基础模型的GPT-3提升33%,与InstructGPT001差不多的效果。
介绍
2022年以后的大模型一般都使用了预训练和引导使用人工标注引导的技术。PROMPT SOURCE, SUPER NATURAL INSTRUCTIONS是两个著名的引导数据集。
自引导过程是一个迭代自举算法。在第一阶段,模型被提示为新任务生成指令。此步骤利用现有的指令集合来创建更广泛的指令定义任务;然后,在将低质量和重复的指令添加到任务池之前,使用各种措施对其进行修剪。可以针对许多交互重复此过程,直到生成大量任务。
该模型的迭代 SELF INSTRUCT 过程产生大约 52k 条指令,与大约 82k 实例输入和目标输出配对。
文章贡献:
- 提出SELF-INSTRUCT,一种用最少的人工标记数据诱导指令能力的方法;
- 通过广泛的指令调整实验证明了它的有效性;
- 发布了一个包含52K 指令的大型综合数据集和一组手动编写的新任务,用于构建和评估未来的指令优化模型。
方法
图-1中展示了其核心技术。
定义引导数据
首先,(图左上)定义了175个种子任务,目标是生成一个引导数据集{I},其中每条定义一个自然语言任务t,每个任务都有一个或多个输入输出实例 (Xt, Yt),预计模型M产生输出y。为了鼓励数据格式的多样性,允许不需要额外输入的指令(即,x为空)。
生成自引导数据
- 生成自引导:
将 175 个任务(每个任务 1 个指令和 1 个实例)作为初始任务池。每一步,从池中抽取 8 个任务指令作为上下文示例。其中6 条来自人工编写的任务,2 条来自前面步骤中模型生成的任务,以促进多样性。 - 判断自引导是否为分类
示例见图 - 按不同方式生成数据
为每条引导生成实例,针对于分类与非分类任务使用不同方法,对于分类任务一般先生成类别标签,然后生成问题;而非分类问题先生成问题,再生成答案。 - 过滤掉低质量数据
为了鼓励多样性,只有当一条新指令与任何现有指令的 ROUGE-L 重叠小于 0.7 时,它才会被添加到任务池中。还排除了包含一些通常无法被语言模型处理的特定关键字的指令;另外,过滤掉完全相同或输入相同但输出不同的实例。 - 使用生成的指令精调模型
连接指令和实例输入作为提示,训练模型产生实例输出。
来自 GPT3 的自引导数据
生成的数据包含52K引导,82K实例。
图-2展示了生成的最常见的动词及其直接宾语:
实验
使用GPT-3生成的引导,利用GPT-3提供的fine-tune API 对GPT-3调优。
实验一:Zero-shot任务
SUPERN1评测包含119项任务,每个任务100个实例。
可以看到Instruct-GPT相对于GPT-3基本版有较大提升,与InstructGPT001效果差不多。
推广到面向用户的新任务
创建了 252 条指令,每条指令 1 个实例。用它可以作为一个测试平台,用于评估基于指令的模型如何处理多样化和不熟悉的指令。人为评估分为从A-D四个等级,效果如下:
可以看到Self-instruct与instructGPT001差不多,相对于002,003差距较大。
instructGPT001、002、003:001是比较早期的版本,002深度融合了代码训练和指令微调,003加入了PPO强化学习。
论文阅读_Self_instruct相关推荐
- 论文阅读工具ReadPaper
对于搞科研的同学们来说,看论文是要经历的第一关,尤其是要读好多篇论文的时候,更是着实令人头大. 这不,最近无意中发现了个在线论文阅读网站:readpaper.com,号称「论文阅读笔记神器,硕博科研学 ...
- 多目标跟踪:CVPR2019论文阅读
多目标跟踪:CVPR2019论文阅读 Robust Multi-Modality Multi-Object Tracking 论文链接:https://arxiv.org/abs/1909.03850 ...
- 快速人体姿态估计:CVPR2019论文阅读
快速人体姿态估计:CVPR2019论文阅读 Fast Human Pose Estimation 论文链接: http://openaccess.thecvf.com/content_CVPR_201 ...
- Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读
Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读 Action4D: Online Action Recognition in the Crowd and Clutter 论文链接 ...
- 深度学习点云语义分割:CVPR2019论文阅读
深度学习点云语义分割:CVPR2019论文阅读 Point Cloud Oversegmentation with Graph-Structured Deep Metric Learning 摘要 本 ...
- 3D目标检测论文阅读多角度解析
3D目标检测论文阅读多角度解析 一.前言 CNN(convolutional neural network)在目标检测中大放异彩,R-CNN系列,YOLO,SSD各类优秀的方法层出不穷在2D图像的目标 ...
- 3D目标检测论文阅读摘要
3D目标检测论文阅读摘要 2D Object Detection 的研究已经非常成熟了,代表作品有RPN系列的FasterRCNN,One Shot系列的YOLOv1-YOLOv3,这里推荐一个2D ...
- 目标检测——Faster R-CNN论文阅读
论文阅读--Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks 文章目录 论文阅读--Faste ...
- 【独家】深度学习论文阅读路线图
如果你是深度学习领域的一名新手,可能会遇到的第一个问题是"应该从哪篇论文开始读起呢?" 这里给出了深度学习论文阅读路线图! 路线图按照下面四个准则构建而成: 从提纲到细节 从经典到 ...
最新文章
- Fiddler (三) Composer创建和发送HTTP Request
- java基础提升篇:深入浅出Java多线程
- C语言再学习 -- 转义字符
- 【FPGA】相关介绍
- 如何把word文档转换成markdown格式
- python学习-综合练习四(最大公约数、最小公倍数、生成日历、递归调用、字符串)
- Educational Codeforces Round 107 (Rated for Div. 2) 题解
- 骆驼和春天的Drools决策表
- hashmap clone_Java HashMap clone()方法与示例
- mysql sql 函数大全_MySQL常用SQL/函数汇总(持续更新)
- SAP License:选择ERP系统的诀窍
- 江苏省计算机c语言考试题库,2020上半年江苏省计算机等级考试辅导教程:二级C语言上机考试题库...
- vue-oss阿里云上传图片
- yoga book android rom,【发帖王】YOGA BOOK Android版玩机技巧
- Cygwin安装笔记
- Java—P1957口算练习题
- STM32第九课(Input Capture, HAL)
- 微博相册一键批量下载 Chrome 扩展
- 云服务器如何共享文件夹,云服务器如何设置共享文件夹
- 邓俊辉 数据结构与算法C++版 第十三章 串 ADT