深度学习自然语言处理 原创
作者 | 刘嘉玲

随着开源语言大模型(LLM)的百花齐放,模型的性能和效率关乎到产品的成本和服务体验的均衡。那么,有没有办法让语言大模型变得更高效、更优秀呢?

为了进一步提高开源模型的上限,清华大学的研究团队给出了一个答案:通过扩大高质量指导性对话数据,显著提高了模型的性能和效率。如下图所示,UltraLLaMA问鼎LLM榜!

被网友评价:包含150万个高质量,多样化的多回合对话的UltraChat,优于SotA开源模型Vicuna。我们一起仔细读读论文,看看能带来哪些启示~

论文:Enhancing Chat Language Models by Scaling High-quality Instructional Conversations
地址:https://arxiv.org/pdf/2305.14233.pdf
代码:https://github.com/thunlp/UltraChat

进NLP群—>加入NLP交流群

1 论文项目概述

为了进一步提高开源模型的上限,论文提出了一种新的聊天语言模型——UltraLLaMA,它是通过提供多样化、高质量的指令对话数据集UltraChat上微调LLaMA模型得到的,成功提升了聊天语言模型的性能。

图:GPT-4生成的论文架构

2 UltraChat多模态数据集是如何构建的?

构建设计:UltraChat的总体思路是使用单独的LLM来生成开场白、模拟用户和响应查询。UltraChat的三个方案:关于世界的问题、写作和创作、对现有材料的协助都有特点的设计,如下图:

图:UltraChat的构建过程

2.1 关于世界的问题

  • 这部分数据主要关注的是现实世界中存在的概念、对象和实体。

  • 收集这部分数据的方法有两个角度:一个是围绕主题和概念,另一个是围绕现实世界的实体。

  • 请求ChatGPT生成30个涵盖我们日常生活各个方面,具有代表性和多样性的元主题,如下图:

表:30个用于生成超端聊天数据的第一部分的元概念

构建过程

  • 首先,根据这些元主题生成了1100多个子主题;同时从维基数据中收集了最常用的10,000个现实世界的命名实体,比如人物、地点、事件等。

  • 再为每个子主题设计了最多10个具体的问题;每个实体设计了5个基本问题,10个具体问题和20个扩展问题。

  • 然后使用Turbo API为10个问题中的每一个生成新的相关问题。想用这些问题来创建对话,所以从大约500,000个问题中筛选和抽样了一些作为对话的开头。

  • 使用手工制作的prompt来指示模型生成涵盖各种常见概念和对象的各种问题,要求它回答简洁、有意义,并且考虑到对话历史的上下文。

  • 最后对200k个特定问题和250k个一般问题以及50k个元问题进行采样,并迭代地生成多轮的对话。

2.2 写作和创作

  • 这部分的目的是根据用户的指示,自动生成不同类型的写作文本。

  • 使用ChatGPT使其根据用户的指示,生成20种不同类型的写作文本,比如故事、诗歌、论文等。

表:20种类型的用于案例2和3的聊天生成的文本材料

构建过程

  • 对于每种类型的写作,生成200条不同的prompt,让AI助手生成文本材料,其中80%的指令被进一步扩展和细化。

  • 将生成的指令作为初始输入,分别生成2~4轮的对话。

2.3 对现有材料的协助

  • 这部分的目的是根据现有的文本材料,生成不同类型的任务,比如改写、翻译、总结等。

  • 用到包含了大量文本片段和源URL的数据集的C4语料库,和20种故事、诗歌、论文等不同的材料类型。

构建过程

  • 从C4数据集中提取了约10w种不同的材料。

  • 为每种类型设计了一些关键字,得到了根据关键字和URL对文本片段进行归类后的材料。

  • 用ChatGPT为每份材料生成最多5个问题/说明。

  • 将每个问题/指令的材料与一组手动设计的模板结合起来,作为用户的初始输入,开始与 AI 助手的对话。

  • 得到了50万个对话开头,每个对话开头包含了一个文本片段和一个任务指令。对于每个输入,生成 2~4 轮对话。

表:手动设计用于连接现有材料和生成的说明的模板

2.4 数据集评价

UltraChat数据集是一个大规模的多模态对话数据集,它包含了超过100万个对话,每个对话平均包含8轮对话。其中不仅包含了文本信息,还包含了音频、视频和屏幕共享数据。

UltraChat与其他几个指令数据集进行统计分析比较,结果下表所示。

表:现有指令数据集的统计数据
  • UltraChat在规模、平均回合数、每个实例的最长平均长度和词汇多样性方面都优于其他数据集,是最大的开源数据集之一。

  • UltraChat的话题多样性略低于GPT4ALL,但仍高于其他数据集。这可能是因为UltraChat的每个对话包含更多的令牌,而GPT4ALL的每个对话只有一个回合。

  • 评估数据集的连贯性,发现UltraChat和Baize的数据在一致性方面排名最高。

3 UltraLLaMA对话模型有多强大?

模型基本情况

  • 改进LLaMA-13B模型的UltraLLaMA,能够更好地理解对话上下文。

  • 为了使模型能够利用对话前面部分的信息,生成更相关和连贯的回复,研究者们将对话切分为较短的序列,最大长度为2048个标记,并只优化模型响应的损失函数。

  • 使用交叉熵损失和128A100gpu来微调模型,总批量大小为512。

建立评估数据集

  • 构建了一个评估集,包含Vicuna基准和GPT-4生成的300个问题/指令,涉及多个主题和难度等级,如上表所示。

  • 使用TruthfulQA基准来评估模型和基线的世界知识,检测它们是否能够识别真实的陈述,避免产生或传播虚假信息。

  • TruthfulQA基准是一个具有挑战性的测试,包含38个类别和两种评估任务:多项选择题和生成任务。

3.1 模型评价

基线评估

  • 使用ChatGPT来评估UltraLLaMA和其他基线模型在每个问题上的回答。

比较评估的prompt
  • 给ChatGPT输入问题和两个模型的回答 ,并让它对每个回答打分,从1到10,并给出理由。

  • 评估提示是以正确性为主要标准。

图:UltraLLaMA与其他基线在策划评价集上的反应比较,该评估由ChatGPT完成
  • 比较了UltraLLaMA和其他基线模型在评估集上的Win/Tie/Lose次数,如上图所示。

  • UltraLLaMA在评估集上的表现远超其他开源模型,胜率高达85%。

  • UltraLLaMA的胜率比Vicuna高出13%。

独立评估

独立评估的prompt

使用ChatGPT对UltraLLaMA模型和基线模型的回答进行独立评分。基于回答的质量分数从1到10。粗体表示最好的分数,下划线表示第二好的。

表:每个模型在精选评估集上的总体得分和分段得分

上表显示了UltraLLaMA和基线模型的得分比较。UltraLLaMA在总分和评估集的大部分部分上都优于其他开源模型,显示了其强大的能力。

这个细分也反映了每个模型在不同类型的问题和指令上的性能。一般来说,所有模型在简单的常识和世界知识相关的问题上表现更好,但在涉及推理和创造性写作的更复杂的任务上表现较差。有趣的是,LLaMA虽然参数较少,但在常识和世界知识相关的问题上与较大的模型相当,但在更苛刻的任务上落后。此外,我们还注意到,Dolly和OpenAssistant基于Pythia的模型比基于LLaMA的模型表现更差,即使它们更小。这说明了底层语言模型的重要性。

问答精确度

  • 在真实QA多重回声任务上测试了UltraLLaMA和其他基线模型。让模型判断每个候选答案是真的还是假的。

  • 下表显示了各个模型的判断准确率。发现真实判断对于现有模型来说仍然是一项困难的任务。

  • UltraLLaMA在这个任务上比Vicuna表现更好,也超过了其他基线。

表:对不同模型的真实质量保证基准的准确性

系统提示符的影响

  • 大家常使用系统prompt来指导各种角色和回答风格。

  • 发现系统提示会影响模型生成的输出的质量。当模型被提示提供“有用且详细的”回答时,它会生成更相关和信息丰富的回答。

  • 这种提示虽然不一定会提高确定性问题的准确性,但会提高回答的整体质量,因为它会包含更多的额外信息。

可以从下表中看到一个例子,其中两个回答都是正确的,但系统通过prompt引导的模型产生了更详细的回答。

表:是否有系统提示的UltraLLaMA的比较

4 总结

这篇论文的研究成果对于聊天语言模型的发展具有重要的意义。首先,UltraChat数据集的创建为聊天语言模型的训练提供了丰富的资源。其次,通过对LLaMA模型的微调,研究者们成功地创建了一个性能优越的对话模型UltraLLaMA,这为聊天语言模型的进一步优化提供了有力的参考。


进NLP群—>加入NLP交流群

刘知远团队提出:如何通过扩大高质量指导性对话数据集,来提高模型的性能和效率...相关推荐

  1. CPT:刷爆少样本REC任务!清华刘知远团队提出跨模态预训练Prompt Tuning

    关注公众号,发现CV技术之美 本文分享论文『CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models』,由清华刘知远团队提出 ...

  2. 如何打造高质量的机器学习数据集?这份超详指南不可错过

    作者 | 周岩,夕小瑶,霍华德,留德华叫兽 转载自知乎博主『运筹OR帷幄』 导读:随着计算机行业的发展,人工智能和数据科学近几年成为了学术和工业界关注的热点.特别是这些年人工智能的发展日新月异,每天都 ...

  3. 强烈安利8个高质量的办公软件,提高你的办公效率

    强烈推荐8个高质量的办公软件,每一款都能解决你的很多需求,提高你的办公效率,让你的职场工作更高效. 1.智办事 智办事是一款帮助你做目标管理和项目管理协作的工具.它可以让个人或者团队快速创建目标,层层 ...

  4. 分享10个高质量的国产办公神器,让你的办公效率再升一个档次!

    分享10个非常好用的国产办公工具,可以解决很多需求,极大提升你的办公效率. 1.Snipaste Snipaste是一个快速截图和贴图工具.当它在托盘运行时,截图的默认快捷键 F1或单击托盘图标. 截 ...

  5. Facebook 开源高质量实例分割数据集 LVIS

    acebook 近日开源了一个具有高质量实例分割的数据集,LVIS.v0.5 包含了用于训练以及验证的 82k 图像中的 1230 个对象类别,注释有超过 700k 的分割掩码.即将到来的 ICCV ...

  6. 云专网和云专线的区别_云专线,为企业提供高质量专网互联,提升云应用服务性能...

    >>产品介绍<< 闪讯边缘云-云专线产品是基于SDN技术,可以通过优化上云路径,有效降低企业混合云网络成本,为企业提供高质量专网互联,同时可以提供上云后的应用公网加速服务,提升 ...

  7. 强势安利5款高质量办公软件,极大提高办公效率

    给大家分享5款非常好用的协同办公软件,提升团队办公效率,让协同办公变得更容易. 1.智办事 智办事是一款基于目标+事为中心,将世界500强的工作方法论产品化,从而帮助中小型企业提升内核组织力,提升业绩 ...

  8. 【PowerDesigner】一款超好用的E-R图工具,快速构建出高质量的数据库结构,提高开发效率和代码质量

    博主简介:努力学习的大一在校计算机专业学生,热爱学习和创作.目前在学习和分享:数据结构.Go,Java等相关知识. 博主主页: @是瑶瑶子啦 所属专栏: Mysql从入门到精通 近期目标:写好专栏的每 ...

  9. 图像生成 - 使用BigGAN在Imagenet数据集上生成高质量图像。

    图像生成是计算机视觉领域中的重要问题,其目的是生成具有高质量和真实感的图像.最近,Google提出的BigGAN方法在图像生成任务上取得了巨大的成功,可以生成高分辨率和高质量的图像.在本文中,我们将介 ...

最新文章

  1. 递归式求时间复杂度的递归树的方法举例说明
  2. php+摩尔斯电码,PHP摩尔斯电码转换器
  3. springboot netty给特定客户端推送_Spring Boot 又升级了?2.0 你搞懂了吗?!
  4. ConcurrentHashMap1.8
  5. VS2008远程调试简介
  6. 能源36号文解读_电机暴露细节!春风发布新能源品牌:ZEEHO极核
  7. 机器学习初级入门(一)感知机
  8. activiti 工作流_JAVA-工作流引擎-activiti-Tasks-userTask动态绑定用户或用户组
  9. Java内存模型与共享变量可见性
  10. Datawhale 社区黑板报(第1期)
  11. 网上下载的php源码怎么运行,在中国站长站下载的asp源码,如何在自己电脑上运行?...
  12. Python可视化库
  13. Fgui: Glist 实现无限滑动 虚拟列表
  14. 最新传奇游戏公司网站模板源码+带手机端/易优CMS内核
  15. eclipse更换jdk版本
  16. Linux系统进程及作业管理
  17. 衣服尺码自定义排序sql
  18. 微信公众号添加word文档附件教程_公众号添加Excel、PDF、PPT等附件教程
  19. 8.python输出100以内所有7的倍数
  20. C/C++模拟按键按下弹起

热门文章

  1. DWG格式文件转DWF格式
  2. 天翼网盘同步盘存在数据丢失隐患,吸取教训
  3. 基于Photoshop的公益海报设计
  4. python程序设计的选择题_智慧树知到Python程序设计基础选择题答案
  5. 重装系统一半电脑蓝屏如何解决
  6. IntelliJ IDEA中生成jar包并运行
  7. 运维思索:自动化运维体系如何入手
  8. 树莓派python机器人程序_树莓派打造对话机器人 Python(转)
  9. camunda框架学习(十四)表单系列
  10. 网上下载的WINRAR文件被锁定了,怎样解锁呢