【导读】ChatGPT背后,是微软超级昂贵的超级计算机,耗资数亿美元,用了英伟达数万颗芯片。

ChatGPT能成为如今火遍全球的顶流模型,少不了背后超强的算力。

数据显示,ChatGPT的总算力消耗约为3640PF-days(即假如每秒计算一千万亿次,需要计算3640天)。

那么,作为依托的那台微软专为OpenAI打造的超级计算机,又是如何诞生的呢?

周一,微软在官博上连发两文,亲自解密这台超级昂贵的超级计算机,以及Azure的重磅升级——加入成千上万张英伟达最强的H100显卡以及更快的InfiniBand网络互连技术。

基于此,微软也官宣了最新的ND H100 v5虚拟机,具体规格如下:

  • 8个NVIDIA H100 Tensor Core GPU通过下一代NVSwitch和NVLink 4.0互联

  • 每个GPU有400 Gb/s的NVIDIA Quantum-2 CX7 InfiniBand,每个虚拟机有3.2Tb/s的无阻塞胖树型网络

  • NVSwitch和NVLink 4.0在每个虚拟机的8个本地GPU之间具有3.6TB/s的双向带宽

  • 第四代英特尔至强可扩展处理器

  • PCIE Gen5到GPU互连,每个GPU有64GB/s带宽

  • 16通道4800MHz DDR5 DIMM

数亿美元撑起来的算力

大约五年前,OpenAI向微软提出了一个大胆的想法——建立一个可以永远改变人机交互方式的人工智能系统。

当时,没人能想到,这将意味着AI可以用纯语言创造出人类所描述的任何图片,人类可以用聊天机器人来写诗、写歌词、写论文、写邮件、写菜单……

为了建立这个系统,OpenAI需要很多算力——可以真正支撑起超大规模计算的那种。

但问题是,微软能做到吗?

毕竟,当时既没有能满足OpenAI需要的硬件,也无法确定在Azure云服务中构建这样庞大的超级计算机会不会直接把系统搞崩。

随后,微软便开启了一段艰难的摸索。

微软Azure高性能计算和人工智能产品负责人Nidhi Chappell(左)和微软战略合作伙伴关系高级总监Phil Waymouth(右)

为了构建支持OpenAI项目的超级计算机,它斥资数亿美元,在Azure云计算平台上将几万个Nvidia A100芯片连接在一起,并改造了服务器机架。

此外,为了给OpenAI量身打造这个超算平台,微软十分尽心,一直在密切关注着OpenAI的需求,随时了解他们在训练AI时最关键的需要。

这么一个大工程,成本究竟是多少呢?微软负责云计算和人工智能的执行副总裁Scott Guthrie不愿透露具体数目,但他表示,「可能不止」几亿美元。

OpenAI出的难题

微软负责战略合作伙伴关系的高管Phil Waymouth指出,OpenAI训练模型所需要的云计算基础设施规模,是业内前所未有的。

呈指数级增长的网络GPU集群规模,超过了业内任何人试图构建的程度。

微软之所以下定决心与OpenAI 合作,是因为坚信,这种前所未有的基础设施规模将改变历史,造出全新的AI,和全新的编程平台,为客户提供切实符合他们利益的产品和服务。

现在看来,这几亿美元显然没白花——宝押对了。

在这台超算上,OpenAI能够训练的模型越来越强大,并且解锁了AI工具令人惊叹的功能,几乎开启人类第四次工业革命的ChatGPT,由此诞生。

非常满意的微软,在1月初又向OpenAI狂砸100亿美元。

可以说,微软突破AI超算界限的雄心,已经得到了回报。而这背后体现的,是从实验室研究,到AI产业化的转变。

目前,微软的办公软件帝国已经初具规模。

ChatGPT版必应,可以帮我们搜索假期安排;Viva Sales中的聊天机器人可以帮营销人员写邮件;GitHub Copilot可以帮开发者续写代码;Azure OpenAI 服务可以让我们访问OpenAI的大语言模型,还能访问Azure的企业级功能。

和英伟达联手

其实,在去年11月,微软就曾官宣,要与Nvidia联手构建「世界上最强大的AI超级计算机之一」,来处理训练和扩展AI所需的巨大计算负载。

这台超级计算机基于微软的Azure云基础设施,使用了数以万计个Nvidia H100和A100Tensor Core GPU,及其Quantum-2 InfiniBand网络平台。

Nvidia在一份声明中表示,这台超级计算机可用于研究和加速DALL-E和Stable Diffusion等生成式AI模型。

随着AI研究人员开始使用更强大的GPU来处理更复杂的AI工作负载,他们看到了AI模型更大的潜力,这些模型可以很好地理解细微差别,从而能够同时处理许多不同的语言任务。

简单来说,模型越大,你拥有的数据越多,你能训练的时间越长,模型的准确性就越好。

但是这些更大的模型很快就会到达现有计算资源的边界。而微软明白,OpenAI需要的超级计算机是什么样子,需要多大的规模。

这显然不是说,单纯地购买一大堆GPU并将它们连接在一起之后,就可以开始协同工作的东西。

微软Azure高性能计算和人工智能产品负责人Nidhi Chappell表示:「我们需要让更大的模型训练更长的时间,这意味着你不仅需要拥有最大的基础设施,你还必须让它长期可靠地运行。」

Azure全球基础设施总监Alistair Speirs表示,微软必须确保它能够冷却所有这些机器和芯片。比如,在较凉爽的气候下使用外部空气,在炎热的气候下使用高科技蒸发冷却器等。

此外,由于所有的机器都是同时启动的,所以微软还不得不考虑它们和电源的摆放位置。就像你在厨房里同时打开微波炉、烤面包机和吸尘器时可能会发生的情况,只不过是数据中心的版本。

大规模AI训练

完成这些突破,关键在哪里?

难题就是,如何构建、操作和维护数万个在高吞吐量、低延迟InfiniBand网络上互连的共置GPU。

这个规模,已经远远超出了GPU和网络设备供应商测试的范围,完全是一片未知的领域。没有任何人知道,在这种规模下,硬件会不会崩。

微软Azure高性能计算和人工智能产品负责人Nidhi Chappell解释道,在LLM的训练过程中,涉及到的大规模计算通常会被划分到一个集群中的数千个GPU上。

在被称为allreduce的阶段,GPU之间会互相交换它们所做工作的信息。此时就需要通过InfiniBand网络进行加速,从而让GPU在下一块计算开始之前完成。

Nidhi Chappell表示,由于这些工作跨越了数千个GPU,因此除了要确保基础设施的可靠外,还需要大量很多系统级优化才能实现最佳的性能,而这是经过许多代人的经验总结出来的。

所谓系统级优化,其中就包括能够有效利用GPU和网络设备的软件。

在过去的几年里,微软已经开发出了这种技术,在使训练具有几十万亿个参数的模型的能力得到增长的同时,降低了训练和在生产中提供这些模型的资源要求和时间。

Waymouth指出,微软和合作伙伴也一直在逐步增加GPU集群的容量,发展InfiniBand网络,看看他们能在多大程度上推动保持GPU集群运行所需的数据中心基础设施,包括冷却系统、不间断电源系统和备用发电机。

微软AI平台公司副总裁Eric Boyd表示,这种为大型语言模型训练和下一波AI创新而优化的超算能力,已经可以在Azure云服务中直接获得。

并且微软通过与OpenAI的合作,积累了大量经验,当其他合作方找来、想要同样的基础设施时,微软也可以提供。

现在,微软的Azure数据中心已经覆盖了全球60多个地区。

全新虚拟机:ND H100 v5

在上面这个基础架构上,微软一直在继续改进。

今天,微软就官宣了全新的可大规模扩展虚拟机,这些虚拟机集成了最新的NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 网络。

通过虚拟机,微软可以向客户提供基础设施,根据任何AI任务的规模进行扩展。据微软称,Azure的新ND H100 v5 虚拟机为开发者提供卓越的性能,同时调用数千个GPU。

揭秘ChatGPT背后天价超算!上万颗英伟达A100,烧光微软数亿美元相关推荐

  1. 烧数亿美元、耗上万颗英伟达 GPU,微软揭秘构建 ChatGPT 背后超级计算机往事 !...

    整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 都说 ChatGPT 这种大模型研发是大公司之间的博弈,不仅仅是因为其要消耗的算力巨大,也是因为需要有强大的资金支撑. 那么,加入这场战局 ...

  2. 谷歌大动作!TPU超算系统大升级,全面超越英伟达A100

    编|泽南 源|机器之心 性能和效率都超越英伟达 A100,这样的超算我有不止十台. 我们还没有看到能与 ChatGPT 相匹敌的 AI 大模型,但在算力基础上,领先的可能并不是微软和 OpenAI. ...

  3. 英伟达A100/1800/H100是CHATGPT最佳选择了吗

    人工智能最新成果CHATGPT惊艳出师,国内大厂代表百度也在奋起直追,如果说之前的科技产品解放了人的四肢,那么接下来的人的大脑被替代也是必然,是否就意味着人类失去了生存的优势及意义了吗? 一.英伟达A ...

  4. 英伟达A100芯片助力ChatGPT:开启智能生活新篇章!

    [导语]:人工智能技术在现代社会中的应用越来越广泛.英伟达A100芯片与ChatGPT的结合,让我们在工作.学习和生活中轻松应对挑战.探索英伟达A100芯片如何助力ChatGPT成为你生活中不可或缺的 ...

  5. 英伟达单季营收72亿美元:市值达9393亿美元 涨幅超过一个阿里

    雷递网 雷建平 5月26日 人工智能企业英伟达(NVIDIA)日前发布财报.财报显示,截至2023年4月30日的季度,英伟达营收为71.9亿美元,较上年同期的82.88亿美元下降13%,较上一季度的6 ...

  6. 英伟达A100可达V100的3.5倍?

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 子豪 发自 凹非寺 量子位 报道 | 公众号 QbitAI 英伟达最 ...

  7. 挖矿让英伟达多赚了近3亿美元,老黄:又创纪录了

    杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 新一季度的财报发布,老黄很开心. 因为英伟达的业绩又突破到了一个新高度: 第四季度共赚了50亿美元,同比增长61%,全年营收166.75亿美 ...

  8. 实测 | 英伟达A100深度学习性能:训练速度高达V100的3.5倍!

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:量子位 AI博士笔记系列推荐 周志华<机器学习> ...

  9. 「镁客早报」国内航空公司暂停运行波音737MAX客机;英伟达将以70多亿美元收购以色列芯片制造商Mellanox...

    阿里巴巴投资申通46.6亿元:长征火箭完成第300次发射!托举中星6C卫星从西昌发射. 1.阿里巴巴投资申通46.6亿元 今日消息,申通快递发布公告宣布,阿里巴巴将投资46.6亿元,入股申通快递控股股 ...

最新文章

  1. docker 端口映射 udp_Docker领路,走进压力测试的现代化 | 51上头条
  2. 20)内联函数(其实,我不懂)
  3. 第 3 章 镜像 - 010 - base 镜像
  4. hdu5108枚举因子求最小的m
  5. WinForm中给DataGridView添加 自动编号
  6. 【CV】ECCV2020图像分割开源论文合集
  7. 发布一个mmap的trie_midrmm02_新浪博客
  8. linux 程序/usr
  9. shell 按文件每行长度排序
  10. 【1】星空派GD32F303开发板介绍
  11. 电子科大考研经验分享
  12. “阀值”与“阈值”的区别
  13. 编写程序,从键盘输入一个三位整数,将它们逆序输出。例如:输入456 ,输出654。
  14. 【解决方法】iOS 开发小技巧(一)
  15. 通过phpmyadmin修改帝国CMS的管理员密码
  16. 天蝎座2019年4月运势
  17. 推荐|微信朋友圈营销的新尝试
  18. 首届 Rust China Hackathon 2022 线上活动正式启动 | 赛题征集+公司征集
  19. DeepTalk vol.1 新物种打造爆品,总共分几步?
  20. 用python读取身份证信息的功能分析与实现,兼述python调用dll的方法

热门文章

  1. 为什么没黑客敢入侵我国?原因有这样的人才在
  2. 用c语言写的新年搞笑祝福程序,新年微信红包搞笑句子_2020新年幽默微信红包祝福语...
  3. scrum流程 规划 冲刺_在开始之前识别出灾难性的Scrum冲刺
  4. 测绘地图资源不够用?教你个万能图源制作方法
  5. 管理费用负数报不了怎么办_管理费用开办费负数怎么调整?
  6. 冷冻离心机不制冷或制冷效果差的原因
  7. 第1章 初识wxWidgets
  8. python调用百度语音发音_用python百度AI文字转语音
  9. C语言中restrict的意义,restrict关键字在C ++中的含义是什么?
  10. 计算机专业双一流排名大专,2020电子科技大学专业排名(王牌专业+双一流学科)...