易观:GPT-4于2023年3月14日正式发布。与前代相比,GPT-4的功能有着非常大的提升,易观认为其功能符合预期,也依旧存在前代即存在的功能缺陷类型与能力局限性。GPT-4的原有功能提升与新特性使其可应用的范围更广,但对GPT-4的应用需正视其目前存在的功能缺陷与能力局限性,以采取技术手段、改进应用方法、设计应用流程等方式充分挖掘其应用潜力的同时规避可能存在的应用风险。

GPT-4的功能缺陷与能力局限性以及相关思考

3月14日,GPT-4正式发布。OpenAI首席执行官Sam Altman表示GPT-4是他们目前功能最强的模型,而GPT-4也极有可能是对公众开放使用的功能最强的大模型。与GPT-3.5相比,GPT-4的功能更强。在如GRE定量推理、SAT数学等为人类设计的多项模拟考试中成绩有较大幅度的提升,在传统机器学习模型评估中其成绩也有非常明显的提升。作为多模态模型,GPT-4对图像的理解极为准确,且能解读图像中的深层含义。在推理方面,GPT-4的思维链,即将复杂推理任务分解为多个中间推理步骤的能力较前代也有明显提升。易观认为GPT-4在功能上的提升重点是其多模态理解能力与思维链能力,而这也使GPT-4具有更广的应用空间。

但也如Sam Altman所言,GPT-4仍有缺陷,其能力也有局限性。功能缺陷方面,与第4版ChatGPT相比,GPT-4的回答虽然在各个领域的知识上的真实率有了平均19%的提升,但其回答仍然会“编造”事实,并进行错误的推理。目前有关GPT-4的公开信息仍然较少,但易观认为GPT-4采用的事实测试其数据与GPT-4训练数据分布存在偏差,因此可以认为在测试中GPT-4已展示出出色的领域泛化能力,且“编造”事实的情况也可以认为是领域泛化的应用尝试,这也与神经科学中关于形成认知的过程相关研究成果具有较强的相似性。但结合GPT-4对错误答案的“坚持”与拒绝审查错误答案的情况也说明GPT-4目前对训练数据分布的边界感知仍然非常模糊。能力局限性方面,GPT-4的绝大部分预训练数据截止至2021年9月,因此十分缺少在此时点之后的知识,比如GPT-4很可能不知道女王逝世的信息。且GPT-4不能从对话经验中进行学习,而这种能力的局限性也从侧面反映出目前距离通用人工智能还有很长的一段路要走。

从人工智能相关研究来看,应对GPT-4的功能缺陷需要关注领域泛化相关研究,建议关注元学习、自监督学习、解耦表达学习方面的研究进展以及运用强化学习探索中间表达的分布的相关研究。易观认为解决训练数据分布的边界感知问题可能需要以图的形式审视训练数据,但目前从对图的学习研究进展来看,利用图神经网络学习GPT-4的训练数据图仍然有着非常大的挑战。从能力局限性来看,需要长期关注持续学习领域相关研究的进展,建议关注域增量持续学习与任务不可知持续学习的相关研究进展,重点关注基于参数隔离的持续学习方法,易观认为应用于基于参数隔离持续学习方法仍然需要以图的形式审视基于任务的参数隔离方法,并要形成任务与隔离方法的评估标准。

从应用角度来看,既可以采用技术的方式降低GPT-4的应用风险,也可以通过改进应用方式拓展其可用性,企业更应在充分考虑其缺陷与局限性的前提下制定合理合规的应用流程。后续也将在这个部分进一步展开。

对GPT-4的部分猜想及其引发的对大模型开发与应用的思考

目前已知GPT-3的参数量为175B,而其后GPT-3.5的参数量未知。易观认为GPT-3.5的参数量可能已接近500B规模,而GPT-4的参数量即使在经后训练后很可能也已突破1T规模。而从ChatGPT的应用效果来看,很有可能GPT-3.5已经采用编解码架构,GPT-4也沿用同一架构。

根据以上猜想,从微软与OpenAI对GPT系列模型训练而准备的算力规模来看,已有针对超算的并行计算框架,并很大程度上解决了T级参数量大模型的并行计算问题,即在大模型开发的工程化能力方面获得了前沿经验,也可以保证后续开发的大模型参数量的持续增长。从目前公开的GPT-4训练方面的资料来看,OpenAI也已经对大模型训练的规律有着较好的总结,这也有利于开发针对某一领域,具备特定功能的大模型。AI工程化能力的升级对于我国进行大模型的开发与落地具备非常重要的借鉴意义。

在商业化的考虑上,GPT-4所产生的示范效应主要为如下几个方面,国内大模型开发与商用过程中可以予以借鉴。

其一,与GPT-3.5以及ChatGPT相比,GPT-4更侧重其企业级应用的稳定性与安全性,GPT-4在2022年8月已经完成训练,而为了应对可能的风险,在完成训练后直到正式发布的这段时间里一直在对其进行评估、对抗测试、迭代提升、微调与系统级的调整;

其二,尽管GPT-4并未开源,但是需要关注到OpenAI同时开源的Evals,既可以用来评估不同大模型的表现,也可以为特定问题设计专有的评估逻辑。这既可证明其产品能力,又为行业设定标准,更可用来辅助设计GPT-4在不同场景不同行业的应用模式。充分利用GPT-4的思维链能力,检查其推理逻辑,拓展其可用性,规避错误推理以及“编造”事实可能产生的应用风险,企业应用GPT-4时,也应针对性的设计人工审查环节,明确责任主体,充分利用其生产力的同时保证其应用的合规性,降低应用风险发生的可能性;

其三,深度协同形成最佳实践,激发围绕GPT-4应用与开发的无限可能性,此次摩根斯丹利、Be My Eyes、可汗学院等应用实践不仅是GPT-4能力的最佳佐证,也进一步引导了未来其应用的可能方向,包括智能客服、知识搜索、虚拟员工与智能办公等应用,以及在软件开发、金融、医疗、法律、广告等行业的应用价值等;

其四,开放文本输入字数限制,不仅仅展示了其快速的文本理解与逻辑学习能力,同时,也为其按照输出内容量收费的商业化可能性打开了想象空间,结合其最佳实践的引导,无论是场景应用还是商业模式方面,GPT-4均做出了比较好的示范,值得中国大模型予以借鉴。

声明须知:易观分析在本文中引用的第三方数据和其他信息均来源于公开渠道,易观分析不对此承担任何责任。任何情况下,本文仅作为参考,不作为任何依据。本文著作权归发布者所有,未经易观分析授权,严禁转载、引用或以任何方式使用易观分析发布的任何内容。经授权后的任何媒体、网站或者个人使用时应原文引用并注明来源,且分析观点以易观分析官方发布的内容为准,不得进行任何形式的删减、增添、拼接、演绎、歪曲等。因不当使用而引发的争议,易观分析不承担因此产生的任何责任,并保留向相关责任主体进行责任追究的权利。

易观:正视GPT-4功能缺陷与能力局限可更好探索大模型应用相关推荐

  1. 云有约 | 在斩获“数据金羊毛”的途中,易观造船现行,人称Argo号~

    戳蓝字"CSDN云计算"关注我们哦! 作者:刘晶晶 民皆富庶的大唐王朝,唐僧师徒历劫八十一难求取真经:神秘诡谲的古希腊神话,阿格尔英雄经历万千磨难智获金羊毛,均是一路辛苦. 真经, ...

  2. 在斩获“数据金羊毛”的途中,易观造船现行,人称Argo号~

    民皆富庶的大唐王朝,唐僧师徒历劫八十一难求取真经:神秘诡谲的古希腊神话,阿格尔英雄经历万千磨难智获金羊毛,均是一路辛苦. 真经,佛之大智.普度众生:金羊毛,稀世珍宝.王权象征.故事中,长路漫漫,求取真 ...

  3. 易观方舟Argo+CRM | 让企业数据发挥更大价值

    新冠疫情下,全民战疫.企业为了应对疫情.维护员工安全,目前在复工方面呈现出如下两种形态: 状态1:有数字化触点的企业快速开启远程办公,利用线上平台设计各种动作开展拉新.促活等用户运营工作,员工在家办公 ...

  4. 智能+,见未来:「易观方舟智能用户运营产品套件」全新升级

    2020年5月18日,数据智能产品.平台和解决方案提供商易观,在线上举办"「易观方舟智能用户运营产品套件」全新升级发布会".全新升级后的易观方舟包含智能分析.智能运营.智能画像三大 ...

  5. 让数据能力平民化 易观方舟Argo正式上线

    现如今,数据以更加精细的响应能力和解决方案反应和满足用户需求,并提出高效率的产品提案.而通过数据驱动企业精细化发展,也已成为业界公认的大势所趋. 3月1日,数据智能产品和平台提供商易观发布国内第一款可 ...

  6. 易观推出免费版本方舟Argo,同时开源SDK及调度

    易观推出了免费版本方舟Argo,Argo是国内唯一的一款免费的可以私有化部署的用户行为分析平台,可以私有化对接自己的各种内部系统,它的商业版本已经在招商银行.当当.首汽等客户大面积使用了. 别人都是免 ...

  7. 易观推出面向初创企业的免费数据分析产品易观方舟Argo

    [TechWeb]3月3日消息,日前,易观推出一款可私有化部署.开放且免费的用户分析和精益运营产品易观方舟Argo.这是易观自主研发.基于自有IOTA架构的产品,也是易观方舟产品家族的成员之一. 据介 ...

  8. 易观方舟“纳新”Argo,私有化部署、开放、免费、精益运营通通都是关键词……

    近日,数据智能产品和平台提供商易观推出可私有化部署.开放且免费的用户分析与精益运营产品易观方舟Argo. 易观发布"易观方舟Argo" 据记者了解,易观方舟Argo是易观自主研发. ...

  9. 【金猿产品展】易观千帆——国内权威的数字经济洞察平台

    易观分析产品 本项目由易观分析投递并参与"数据猿年度金猿策划活动--2021大数据产业创新服务产品榜单及奖项"评选. 数据智能产业创新服务媒体 --聚焦数智 · 改变商业 易观千帆 ...

最新文章

  1. Scala 中的函数式编程基础(一)
  2. 香帅的北大金融学课笔记6 -- 货币基金
  3. 违反Apache 2.0许可证再分发被指控,火山引擎回应
  4. 前后端分手大师——MVVM 模式
  5. [vue] 说说你对vue的mixin的理解,有什么应用场景?
  6. python实验四_python实验四
  7. 我的Java自学之路
  8. 医院耗材管理系统开发_12
  9. Ubuntu 8.10字体美化原理初步探索
  10. mysql判断身份证地址_mysql 语句根据身份证查询年龄,地址,性别
  11. python转exe遇到的坑及解决方案
  12. Word2010为图片批量插入题注
  13. 计算机上显示找不到无线网络连接,电脑怎么找不到无线网络? 笔记本找不到无线网络如何解决?...
  14. 网易MuMu模拟器 更改模拟器大小(iphone5为例)
  15. NLP自然语言处理CRF详解
  16. 华北理工计算机学院官网,2019上半年华北理工大学计算机等级考试报名通知
  17. server.context-path不是默认的时候的注意事项
  18. 检测MSWORD.OLB是否注册及注册的代码
  19. 【每日新闻早报简报】9月30日 星期一
  20. 机器人控制系统软硬件平台

热门文章

  1. MATLAB的Curve Fitting Tool 生成代码并被调用
  2. vue3 组件打包成umd和es格式
  3. linux文件分割命令性能,Linux系统下使用split命令分割大文件 (转载)
  4. 护眼灯哪个品牌最好?台灯这样选对眼睛好
  5. unity音频 Android,unity发布到Android的音频解决方案
  6. MySQL int 类型长度有啥用? int(11) 和 int(20) 有啥区别?
  7. 从头开始复现YOLOv3(三)训练模型
  8. 无人(自动)驾驶知识概述
  9. idea把mybatis的sql黄色背景去掉
  10. JAVA语言时间BJT转UCT