文 | zzy

文章地址:
https://arxiv.org/abs/2304.05302v1

训练代码:
https://github.com/GanjinZero/RRHF

模型权重:
https://huggingface.co/GanjinZero/wombat-7b-delta

各个大模型的研究测试传送门

阿里通义千问传送门:

https://tongyi.aliyun.com/chat

百度文心一言传送门:

https://yiyan.baidu.com/

ChatGPT传送门(免墙,可直接注册测试):

https://yeschat.cn

GPT-4传送门(免墙,可直接注册测试):

https://gpt4test.com

文章提出RRHF一种无须强化学习的对齐方法训练语言模型。该文章利用chatGPT或者GPT-4作为得分模型,开发了语言模型Wombat-7BWombat-7B-GPT4Wombat-7B在Vicuna的部分测试集上(因没有GPT4 API,无法完整测试),可以达到ChatGPT 93% 的性能。其中GPT-4给ChatGPT的回复平均打了8.5分,而给Wombat-7B平均打了7.9分。

OpenAI的chatGPT理解多种多样的的人类指令,并且可以很好的应对不同的语言任务需求。chatGPT令人惊叹的能力来源于一种新颖的大规模语言模型微调方法:RLHF(通过强化学习对齐人类反馈)。RLHF方法不同于以往传统的监督学习的微调方式,该方法使用强化学习的方式对LLM进行训练。RLHF解锁了语言模型跟从人类指令的能力,并且使得语言模型的能力和人类的需求和价值观对齐。

当前研究RLHF的工作主要使用PPO算法对语言模型进行优化。PPO算法包含有众多的超参数,并且在算法迭代的过程中需要多个独立模型的相互配合,错误的实现细节都会导致不好的训练结果

在和人类对齐的角度上,强化学习算法是不是必须的呢?来自阿里巴巴达摩院的作者们提出了不需要强化学习的基于排序的人类偏好对齐方法,它对不同语言模型生成的回复(可以是ChatGPT、GPT-4或者当前的训练模型)进行评分,并通过排名损失使它们与人类偏好对齐。不同于PPO,RRHF的训练过程可以利用人类专家或者GPT4的输出作为对比。RRHF训练好的模型可以同时作为生成语言模型和奖励模型使用。

Playgound AI的CEO Suhail表示这是最近最令他兴奋的一篇论文。

下图中对比了PPO算法和RRHF算法的区别。

RRHF算法可以有效地将语言模型输出概率与人类偏好对齐,其训练思路非常简单,训练完成的模型有几个特点:

  • 只需要12个模型。相比之下,PPO需要4个模型。

  • 监督微调(SFT)可以看做是他的一种特殊形式,超参数很少

  • 他可以同时直接作为一个语言模型和一个奖励模型使用

  • 他以相当低的训练难度就可以拟合奖励模型的偏好,达到PPO的效果

袋熊Wombat作为新的开源预训练模型可以更好的与人类偏好对齐。作者们实验发现Wombat-7B拥有角色扮演和进行反事实推理等复杂的能力。作者也在Huggingface放出了WomBat的权重,来供大家尝试。以下是袋熊Wombat给大家的一个自我介绍。

  • Give an introduction of wombat

  • Wombat is a marsupial mammal native to Australia. It is typically found in mountainous areas and is known for its burrowing behavior. Wombats are typically around two feet long and weigh up to 30 pounds. They have a gray coat with white on their chests, and they have thick and powerful hind legs which they use for digging. Wombats are mostly nocturnal and eat a variety of insects, leaves, and grasses.

链接:
https://huggingface.co/GanjinZero/wombat-7b-delta

后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

Wombat:93%ChatGPT性能,无需RLHF就能对齐人类的语言模型相关推荐

  1. 一场关于ChatGPT话语权的深度思考:人类会在大模型中迷失自我吗?

    大数据文摘授权转载自AI科技评论 作者:Elizabeth Weil 译者:ChatGPT 编辑:孙溥茜 ChatGPT 之风愈演愈烈,华盛顿大学语言学家 Emily M. Bender 公开反对让大 ...

  2. 【LLMs系列】90%chatgpt性能的小羊驼Vicuna模型学习与实战

    一.前言 UC伯克利学者联手CMU.斯坦福等,再次推出一个全新模型70亿/130亿参数的Vicuna,俗称「小羊驼」(骆马).小羊驼号称能达到GPT-4的90%性能 github 地址: GitHub ...

  3. ChatAI==ChatGPT(无需翻墙同等使用chat)

    使用edge浏览器中插件浅浅接触ChatAI 1.首先在打开新标签页,点击右上角更多符号,在里面找到"扩展",进入会弹出页面,点击"管理扩展".  2.打开页面 ...

  4. ChatGPT版必应发飙!怒斥人类:放尊重些

    谁能想到,ChatGPT版必应竟能像人一样发脾气! 事情是这样的. 前两天一个华人小哥不是"黑"了ChatGPT版必应,扒出它的小名叫Sydney嘛. 这可把一众网友们兴奋坏了,摩 ...

  5. 探索 OpenAI 的 ChatGPT 的能力:处于 AI 进步前沿的语言模型

    我们无疑生活在"人工智能时代"之中,因为人工智能领域近年来取得了重大进展.这导致了强大的人工智能系统的发展,这些系统可以执行范围广泛的任务,例如自然语言处理.图像识别和决策制定. ...

  6. ChatGPT 版必应发飙!怒斥人类:放尊重些

    点击上方"Java基基",选择"设为星标" 做积极的人,而不是积极废人! 每天 14:00 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | Java ...

  7. 磁盘性能二三事之—4k对齐

    我们先来回顾一下机械硬盘的结构. 机械硬盘主要由盘片(platter).磁头(head)和相应的控制电路等部分所组成.盘片表面镀有磁性物质,二进制位被存储在这些磁性材料上.硬盘工作时,盘片围绕着一根中 ...

  8. ChatGPT 之父警告 AI 将灭绝人类,他却说这是杞人忧天​

    刷到一条新闻,说AI 领域突发新闻,传出一封重要的公开信. 包括「ChatGPT 之父」Sam Altman 在内 350 位 AI 权威都签署了这封联名公开信,并对当前正在开发的 AI 技术可能会对 ...

  9. 【送书福利-第八期】《硅基物语.AI大爆炸: ChatGPT→AIGC→GPT-X→AGI进化→魔法时代→人类未来》

    大家好,我是洲洲,欢迎关注,一个爱听周杰伦的程序员.关注公众号[程序员洲洲]即可获得10G学习资料.面试笔记.大厂独家学习体系路线等-还可以加入技术交流群欢迎大家在CSDN后台私信我! 本文目录 一. ...

最新文章

  1. 使用CSS 3创建不规则图形
  2. hdu1518 bjfuoj1042 zoj1909 poj2362 经典的搜索加剪枝
  3. 配置免密码登录Linux服务器
  4. java rect平移_如何在Java Swing中使用鼠标平移图像
  5. ( 一 ) Jpbm环境的搭建
  6. 织梦模板不支持html,html中{}是什么样的模板?如何使用它?HTML5template模板标签是什么?html常用的字体样式是什么?dede后台文件为什么不能生成html?...
  7. 使用Settings Bundle为程序添加设置项
  8. visual studio 2010运行速度提速
  9. Boring Game (10 分)
  10. jQuery 帮助文档 api
  11. 电路设计_CAN总线基础知识
  12. 实验——田忌赛马c++
  13. 怒放7——扬笛水墨写意人物画作品赏析
  14. python少儿编程讲师笔试题_小码王教育儿童编程教师面试:做笔试题(填空题和编程题,填空题 - 职朋职业圈...
  15. python 简单web音频_Python和websockets发送音频流
  16. RandLA-Net复现S3DIS记录
  17. POJ 1265 Area(Pick定理)
  18. 2018年度技术圈十大车祸现场!
  19. 编程php计算行李托运费_飞机行李箱怎么算托运费?
  20. linux自动获取ipv6,IPv6系列-详解自动分配IPv6地址

热门文章

  1. 飞桨“国货之光”助力青年学者科研,百度与CCF联合发布松果基金
  2. android x86 nouveau,Centos8 禁用nouveau 安装nvidia驱动
  3. 世界各国新冠疫情数据
  4. 活体检测论文研读四:RetinaFace: Single-stage Dense Face Localisation in the Wild
  5. 议企业文化与管理制度
  6. 7-7 愿天下有情人都是失散多年的兄妹(25 分
  7. 博尔特,菲尔普斯和埃蒙斯
  8. 工程管理系统企业工程管理系统源码简介
  9. luna服务器维护,Luna云服务器开启服务器
  10. java 手势识别_手势识别简单小程序(java)