目录

  • 一、GPT三大版本介绍
    • (一)GPT-3
    • (二)GPT-3.5
    • (三) GPT-4
  • 二、GPT 三大版本对比
    • (一)GPT-4 与 GPT-3 的功能对比
      • GPT-3 与 GPT-4 中的token限制对比
      • GPT-4 和 GPT-3 中的输入类型对比
      • GPT-4与GPT-3中定义对话语境对比
      • GPT-4 与 GPT-3 的使用成本对比
      • OpenAI 模型的Fine-tuning
      • GPT-4的错误和局限性
  • 三、对比总结

最新发布的 GPT 模型 GPT-4 又在互联网掀起了一波讨论热潮。GPT-4 是 OpenAI 目前最为先进的系统,具备更广泛的知识和解决问题的能力,可以更准确地解决复杂问题。

本文将分析比较 GPT-3、GPT-4 以及介于两者之间的 GPT-3.5,介绍它们之间的相似点和不同点,以及哪些用例最适合它们。

一、GPT三大版本介绍

(一)GPT-3

GPT-3 是由 OpenAI 开发的一种语言模型,于 2020 年 6 月发布。凭借其出色的语言生成能力,迅速在业内引起广泛的关注。

GPT-3有多个基础模型,它们的参数数量和所需计算资源各不相同,最被认可的是Ada、Babbage、Curie和Davinci。

OpenAI于2022年3月15日发布了名为"text-davinci-003"的全新版本GPT-3,据称比之前的版本更加强大。该模型基于截至2021年6月的数据进行训练,这使得它比之前版本的模型(在截至2019年10月的数据上进行训练)更具有时效性。随后的八个月后,OpenAI开始将这个模型称为属于“GPT-3.5”系列。

(二)GPT-3.5

有5大不同的模型属于GPT-3.5系列,其中四款是针对文本完成任务而优化的,一款是针对代码完成任务而优化的。
最新版本的 GPT-3.5 模型——gpt-3.5-turbo于2023年3月1日正式发布,其发布引起了人们对GPT-3.5的极大兴趣。然而,这只是GPT-4发布前的热身。

(三) GPT-4

GPT-4是OpenAI语言模型的最新、也是最先进的版本。它于2023年3月14日推出,被定义为是深度学习发展的新里程碑。

GPT-4能够生成比之前版本更加符合事实的准确陈述,从而确保了更高的可靠性和可信度。它还是多模态的,意味着它可以接受图像作为输入并生成标题、分类和分析。同时GPT-4还具备了一定的创造力。正如在官方产品更新中所介绍的,“它可以生成、编辑并与用户一起迭代创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。”

目前,在 2023 年 3 月,GPT-4 有两种型号:

  • gpt-4-8K
  • gpt-4-32K

它们的上下文窗口大小不同。尽管 GPT-4 已经投入商业使用,但大多数用户仍需要等待一段时间才能访问 GPT-4 API 并构建 GPT-4 支持的应用程序和服务。

二、GPT 三大版本对比

当被问及GPT-4与GPT-3的比较时,OpenAI的联合创始人兼总裁Greg Brockman用了一个词来回答:“不同”。正如他在接受Techcrunch采访时所说,“这个模型仍然存在很多问题和错误…但你可以真正看到某些领域的技能水平从非常糟糕到实际上相当好的跳跃性进步,比如微积分或法律等领域。”

OpenAI发布的 GPT-4 研究揭示了关于新模型的许多细节,接下来我们进一步详细说明。

(一)GPT-4 与 GPT-3 的功能对比

GPT-3和GPT-4之间最大的区别之一是它们的功能。GPT-4比GPT-3.5更可靠、更有创意、更具协作性,并且能够处理更细微的指令。

为了了解这两种模型之间的区别,OpenAI 开发人员在不同的基准测试中对它们进行了测试,包括模拟最初为人类设计的考试测试。

我们通过使用最新的公开测试,或者购买2022-2023年版的模拟考试来进行测试。我们没有针对这些考试进行专门培训。虽然考试中的少数问题是模型在训练中看到的,但我们认为结果具有代表性。

考试结果非常惊人,在AP微积分BC考试中,GPT-3的得分仅为1分,而GPT-4的得分是4分。在模拟的律师考试中,GPT-4的通过率约为应试者的前10%,而GPT-3.5则是在后10%。

此外,GPT-4是一个真正的多语言模型。虽然在GPT-3和GPT-3.5版本中,GPT的英语水平已经很高(准确率为70.1%),但在最新版本中,它的准确率提高到了85%以上。实际上,GPT-4还能够理解25种其他语言,包括普通话、波兰语和斯瓦希里语。考虑到大多数现有的ML基准测试都是用英语编写的,你会发现这是很令人难以置信的。

此外,GPT-4还能够在单个请求中处理更长的文本,而这都要归功于更高的上下文长度。

GPT-3 与 GPT-4 中的token限制对比

上下文长度是一个参数,用于描述在单个API请求中可以使用多少个标记(token)。原始的GPT-3模型在2020年将最大请求值设置为2,049个。在GPT-3.5中,这个限制增加到4,096个(大约3页单行英文文本)。GPT-4有两种变体,其中一个(GPT-4-8K)的上下文长度为8,192个,第二个(GPT-4-32K)则可以处理多达32,768个标记,相当于大约50页文本。

虽然如此,我们可以考虑GPT-4的所有新用例。凭借其处理50页文本的能力,将有可能使用新的OpenAI模型来创建更长的文本、分析和总结更大的文档或报告,或者在不丢失上下文的情况下处理对话。正如Greg Brockman在接受Techcrunch采访时所说:“以前,该模型对你是谁、你对什么感兴趣等等没有任何了解。有了这种历史,肯定会使它更有能力…它将使人们能够做的事情更多。”

但这还不是全部,因为除了处理文本输入外,GPT-4还可以解释其他输入类型。

GPT-4 和 GPT-3 中的输入类型对比

GPT-3和GPT-3.5模型仅支持一种类型的输入,即文本(更准确地说是代码),但GPT-4支持额外的输入类型:图像。具体而言,它可以根据由文本和图像组成的输入生成文本输出。

根据用户对GPT-4模型的操作要求,它可以生成说明文字、对可见元素进行分类或分析图像。在GPT-4的研究文档中提供的示例中,我们可以看到该模型分析图表、解释模因,甚至总结由文本和图像组成的论文。我们必须承认,GPT-4的图像理解能力令人印象深刻。

与更高的 token 限制结合,处理图像的能力为使用 GPT-4 开辟了新的可能性——从学术研究到个人培训或购物助手。不过,在你能够利用 GPT-4 的这种新技能之前,不要过于兴奋。正如我们可以在 OpenAI 网站上看到的那样,图像输入仍然是一个研究预览,暂时不对外公开提供。

GPT-4与GPT-3中定义对话语境对比

GPT-3和GPT-4之间还有一个重大区别,即我们如何确定模型的基调、风格和行为。

在GPT的最新版本中,我们可以通过向模型提供所谓的“系统”消息(这些消息在OpenAI的使用政策中有详细描述)来指示信息的基调,并描述模型应如何行事。例如,“你永远不要给学生答案,而总是试图提出正确的问题,以帮助他们学会自己思考”。这些指令能够作为“护栏”来限制GPT-4的互动,防止它在用户要求下改变其行为。这为GPT-4的使用建立了界限,从而更符合用户的期望和需求。

正如上图中的例子,尽管用户提出要求,但GPT-4仍然保持其在系统信息中定义的角色。

在最近发布的GPT-3.5-Turbo中,我们已经可以在某种程度上体验类似模型的能力。通过在系统提示中定义模型的角色,我们可以得到不同的回复,看看信息如何根据GPT模型扮演的角色而有所不同。

在2023年3月之前,GPT-3.5-Turbo无法提供系统信息的模型。上下文信息需要在提示中给出,并且在整个对话过程中很容易改变。新的GPT-4具备更一致的行为,并能根据外部规范进行调整。

GPT-4 与 GPT-3 的使用成本对比

当然,这一切是有价格的。虽然GPT-3模型的成本从每1K tokens 0.0004美元到0.02美元不等,最新的GPT-3.5-Turbo比最强大的GPT davinci模型便宜10倍(每1K tokens 0.002美元),但使用GPT-4的成本没有给你留下任何幻想:如果你想使用最先进的模型,你需要额外付费。

带有8K上下文窗口的GPT-4每1K提示符将花费0.03美元,每1K完成符花费0.06美元。另一方面,带有32K上下文窗口的GPT-4将花费每1K提示符0.06美元和每1K完成符0.12美元。

如果处理平均长度为1500个提示符和500个完成符的10万个请求,用text-davinci-003花费4000美元,用gpt-3.5-turbo花费400美元,用GPT-4,用8K上下文窗口将花费7500美元,用32K上下文窗口花费15000美元。

它不仅昂贵,而且计算起来也更复杂。这是因为提示(输入)token的成本与完成(输出)token的成本不同。如果你还记得我们的GPT-3定价实验,你已经知道估计token使用量是很困难的,因为输入和输出长度之间的相关性非常低。由于输出(完成)令牌的成本较高,使用GPT-4模型的成本将更难预测。

OpenAI 模型的Fine-tuning

还记得我们如何在 GPT-4 和 GPT-3.5-Turbo 的系统消息中定义上下文吗?微调(Fine-tuning)基本上是一种变通方法,用于定义模型的基调、风格和行为,并针对特定应用程序自定义 GPT 模型。

为了微调模型,你在比提示所能适应的更多的例子上训练它,一旦模型被微调,你就不需要在提示中提供例子,这就节省了成本(每1K个代币都算!),并实现了低延迟请求。听起来不错,但遗憾的是,目前唯一可供微调的OpenAI模型是原始的GPT-3基础模型(davinci、curie、ada 和 babbage)。

GPT-4的错误和局限性

当出现关于GPT-4的各种传言时(例如,有人传言它使用的参数数量),OpenAI的CEO发表评论说:“GPT-4的传言是很荒谬的事情,我不知道这一切从何而来。人们对它期望过高,最终会失望的。”

尽管GPT-4具有创造力和惊人的能力,但重要的是要认识到它的局限性。我们可以在产品研究文件中读到,与该模型的前几个版本相比,它们并没有太大变化。

就像它的前辈们一样,GPT-4缺乏对2021年9月之后发生的事件的了解。此外,无论ChatGPT看起来多么聪明,它仍然不是完全可靠的,即使在使用GPT-4自身变得更强大时也是如此。虽然它声称相对于以前的模型大大减少了“幻觉”(在其内部评估中比GPT-3.5得分高40%),但它仍然会对事实产生“幻觉”,并出现推理错误。它仍然可能产生有害的建议(尽管它更有可能拒绝回答)、错误的代码或不准确的信息,因此,它不应该被用在成本高而错误风险较大的领域中。

三、对比总结

作为OpenAI最先进的系统,GPT-4几乎在每个领域的比较中都超过了旧版本的模型。它比GPT-3更有创意、更连贯,可以处理更长的文本甚至图像。它更准确,更不可能捏造“事实”。这些能力为生成式AI创造了许多新的可能性。

但这是否意味着GPT-4将取代GPT-3和GPT-3.5呢?可能不会。虽然GPT-4比以前的OpenAI模型更强大,但它的使用成本也更高。在许多用例中,例如处理多页文件或“记住”长时间对话,GPT-3和GPT-3.5的功能已经足够了。

*本文系数云研究所编译自 neoteric.eu,原文作者Claudia Slowik
*编译转载此文出于传递信息资讯,版权归原作者所有,如有侵权,联系删除
*图片来自可画、OpenAI

数云融合|探究GPT家族的进化之路:GPT-3、GPT-3.5和GPT-4的比较分析相关推荐

  1. 数云融合丨重构传统商贸数字化解决方案

    随着5G技术的高速发展,我们迎来了数字化的新阶段,中国也正在加快步入新的消费时代. 数字化的发展带来的多元下消费力的提升,让传统商贸行业迎来数字化产业升级的十字路口,今天我们就来聊一聊数字化对传统商贸 ...

  2. 聚焦“3+2”,神州数码开展“数云融合”新战略布局

    编辑|王昕慈 出品|CSDN 为了紧抓技术变革和企业数字化转型的新机遇,各行各业都在积极部署并推动业务发展.作为领先的数字化转型合作伙伴,神州数码聚焦云原生和数字原生展开新一轮技术及自主研发布局. 依 ...

  3. 【观察】中国企业下一阶段数字化转型,背后必有强大的数云融合平台

    这次想和大家聊一聊神州数码前段时间提出的"数云融合"的概念和"数云融合平台"的价值. 我们知道,过去几年,随着大部分企业加速数字化转型,当前的数字化转型已进入& ...

  4. 数云融合丨浅谈政府数字化转型

    文章目录 前言 一.数字化转型目的 二.政府数字化转型 三.政府数字化转型三个阶段 四.政府数字化转型的核心价值 前言 什么是数字化转型? 近几年,数字化转型概念异常火热,各行各业都高举着数字化转型的 ...

  5. 数云融合丨知识图谱在烟草零售数字化转型中的应用

    一.知识图谱的趋势       随着互联网.云计算.大数据.人工智能等信息数据技术的快速发展,计算机的智能化程度也越来越高,知识图谱作为人工智能的核心技术,其在数据集成.语义表示和逻辑推理等方面存在着 ...

  6. 数云融合 | 旧叔讲文旅:数字化进程中功不可没的二维码

    不知道从什么时候起,一个个黑白相间的二维码在我们的生活中变得随处可见:出门要出示健康码,出行要用乘车码,加好友要用名片二维码,购物要用支付码... ... 不仅我们的日常生活受益良多,这些二维码还开始 ...

  7. 数云融合丨《数字时代应用可持续性架构和验证白皮书》发布,转型关键技术看这里

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一.前言 二.什么是应用可持续性? 三.应用可持续性面临挑战 敏捷挑战 信创挑战 疫情挑战 四.应用可持续性架构和验证 五. ...

  8. 数云融合丨从认知到实战,找准数字化转型路径

    多年的实践经历让我们深刻体会到:在数字化转型的道路上,从制定战略目标到规划成功落地,是一段充满挑战的旅程. 大多数企业在高层战略规划和执行层落地规划之间存在巨大鸿沟. 这个鸿沟突出表现在目标难以及时准 ...

  9. 数云原生·场景融合|神州数码第四届数字中国技术年会正式开幕

    出品|CSDN 日前,神州数码集团主办的以"数云原生·场景融合"为主题的<第四届数字中国技术年会>正式启动.在开幕式上,神州数码针对"数云融合"的方 ...

最新文章

  1. Python 文件 close() 方法
  2. zuul filter
  3. MySQL优化—磁盘事宜
  4. Oracle dump 分析secondary key
  5. [ARM-assembly]-全局变量/静态全局变量/初始化/未初始化变量的存放位置分析
  6. 从菜鸟成为数据科学家的养成方案
  7. python做日历牌_中秋节到了,送你一个Python做的Crossin牌“月饼”
  8. 数据库之“on”“where”区别
  9. linux+nginx搭建server与client通过证书双向认证环境
  10. vue 原生js写车牌号键盘
  11. html5在线聊天模板,h5聊天室模板|仿微信聊天室html5
  12. PS批处理生成EXE格式
  13. 到位App_jQuery_art-template
  14. 如何开发一个人脸识别,人脸识别系统,人脸识别考勤系统毕业设计毕设作品
  15. VMware收购Wavefront增强云管理产品组合
  16. Android 高新面试题
  17. mysql安装出现应用程序无法正常启动(oxc000007b)的解决方案
  18. ui设计培训课程是哪些
  19. 个人总结出来的git仓库迁移方案
  20. 【MediaWiki之windows安装】MediaWiki创建与基础使用指南

热门文章

  1. Linux上使用nginx将不同域名代理到同一IP的不同端口
  2. [51nod1743]雪之国度
  3. java短信验证码失效时间_java实现短信验证码5分钟有效时间
  4. mybatis-plus批量操作代码分析
  5. 【菜鸟教程】Kafka消息队列入门上(安装、集群搭建、基本命令行操作)
  6. 复兴标志着守望者彩带Fran和Aspen
  7. SR锁存器_个人整理
  8. Python imgaug库的使用
  9. 【PaddleOCR-kie】关键信息抽取1:使用VI-LayoutXLM模型推理预测(SER+RE)
  10. js中‘0’到底是 true 还是 false