2022年3月21日,寒武纪正式发布新款训练加速卡MLU370-X8。MLU370-X8搭载双芯片四芯粒思元370,集成寒武纪MLU-Link™多芯互联技术,主要面向训练任务,在业界应用广泛的YOLOv3、Transformer等训练任务中, 8卡计算系统的并行性能平均达到350W RTX GPU的155%。

寒武纪训练加速卡MLU370-X8

双芯思元370架构

MLU370-X8智能加速卡提供250W最大训练功耗,可充分发挥AI训练加速中常见的FP32、FP16或BF16计算性能。寒武纪首次将双芯片四芯粒思元370整合在MLU370-X8智能加速卡中,提供了两倍于标准思元370加速卡的内存、编解码资源,同时搭载MLU-Link™多芯互联技术。在YOLOv3、Transformer、BERT和ResNet101训练任务中, 8卡并行平均性能达350W RTX GPU的155%。

MLU370-X8中整合了双芯片四芯粒思元370

MLU-Link™多芯互联技术

MLU370-X8智能加速卡支持MLU-Link™多芯互联技术,提供卡内及卡间互联功能。寒武纪为多卡系统专门设计了MLU-Link桥接卡,可实现4张加速卡为一组的8颗思元370芯片全互联,每张加速卡可获得200GB/s的通讯吞吐性能,带宽为PCIe 4.0 的3.1倍,可高效执行多芯多卡训练和分布式推理任务。

MLU370-X8 MLU-Link 4卡桥接

MLU370-X8 MLU-Link 4卡桥接拓扑

训推一体的Cambricon NeuWare交付优秀训练性能

Cambricon NeuWare支持FP32、FP16混合精度、BF16混合精度和自适应精度训练等多种训练方式并提供灵活高效的训练工具,高性能算子库已完整覆盖视觉、语音、自然语言处理、搜索推荐和自动驾驶等典型深度学习应用,可满足用户对于算子覆盖率以及模型精度的需求。

Cambricon NeuWare为思元370系列芯片提供训推一体加速

在Cambricon NeuWare SDK上实测,在常见的4个深度学习网络模型上,MLU370-X8单卡性能与主流350W RTX GPU相当;而在多卡加速方面,MLU370-X8借助MLU-Link多芯互联技术和Cambricon NeuWare CNCL通讯库的优化,在8卡环境下达到更优的并行加速比。

MLU370-X8 单机8卡部署配置

单卡MLU370-X8性能对比

8卡MLU370-X8性能对比

测试环境

250W MLU370-X8:NF5468M5/Intel Xeon Gold 5218 CPU @ 2.30GHz/MLU370 SDK 1.2.0

350W GPU:Supermicro AS-4124GS-TNR/Intel Xeon Gold 6130 CPU @ 2.10GHz/Cuda11.2

MLU370-X8规格表

MLU370-X8补全思元370系列产品线

寒武纪长期秉承“云边端一体、训推一体、软硬件协同”的技术理念。MLU370-X8提供两倍思元370的内存带宽,结合MLUarch03架构和MLU-Link多芯互联技术,将思元370芯片在训练任务的优势充分发挥。MLU370-X8定位中高端,与高端训练产品思元290、玄思1000相互结合,进一步丰富了寒武纪的训练算力交付方式;并与基于思元370芯粒(chiplet)技术构建的MLU370-X4、MLU370-S4智能加速卡协同,形成完整的云端训练、推理产品组合。

MLU370-X8加速卡与国内主流服务器合作伙伴的适配工作已经完成,并已对客户实现小规模出货。

浪潮信息人工智能和高性能产品线副总经理张强表示:“浪潮跟寒武纪目前在思元370系列产品上合作顺利,携手在互联网、金融、制造等领域逐步落地;MLU370-X8的性能优异,我们期待双方可以继续加强合作,为更多的行业和客户带来优秀的人工智能计算力。”

寒武纪用产品向客户印证自己的初心与决心:为人工智能技术的大爆发提供卓越的AI芯片产品,让机器更好地理解和服务人类。

寒武纪发布新款AI训练卡MLU370-X8相关推荐

  1. 【20210122期AI简报】保姆级深度学习环境配置指南、寒武纪首颗AI训练芯片亮相...

    导读:本期为 AI 简报 20210122 期,将为您带来 9 条相关新闻,新增论文推送,在文章底部,祝各位牛年大吉~ 本文一共 3700 字,通篇阅读结束需要 7~10 分钟 1. 保姆级教程:深度 ...

  2. 寒武纪首颗AI训练芯片亮相

    视学算法 转载自公众号:机器之心 1 月 21 日,寒武纪思元 290 智能芯片及加速卡.玄思 1000 智能加速器在官网低调亮相,寒武纪表示该系列产品已实现规模化出货.去年,寒武纪招股书曾简单披露了 ...

  3. 5年5亿美金,一年送出 1000 张训练卡,华为昇腾如何吸引AI开发者?

    2018 年,在第三届 HUAWEI CONNECT(华为全联接大会)上,华为首次公布了 AI 战略与全栈全场景 AI 解决方案,其中包含全球首个覆盖全场景人工智能的华为昇腾(Ascend)系列处理器 ...

  4. 重磅 | 华为发布绝杀计算战略!投15亿美元打造开放生态,全球最快AI训练集群Atlas 900,绝了!...

          戳蓝字"CSDN云计算"关注我们哦! 文 | 阿晶.丹丹.王银发于上海华为HC大会现场 出品 | CSDN云计算(ID:CSDNcloud) 科技的不断发展正逐步加速智 ...

  5. 针对这一行业痛点,创新工场投资的潞晨科技发布了大规模并行AI训练系统——“夸父”(Colossal-AI) ,通过多维并行、大规模优化器、自适应任务调度、消除冗余内存、降低能量损耗等方式,旨在打造一个

    前沿AI模型越来越大,无论是对于企业还是个人,AI模型的训练成本都越来越高.即使花巨资使用超级计算机集群,聘请专家,也难以实现AI模型的高效训练. 针对这一行业痛点,创新工场投资的潞晨科技发布了大规模 ...

  6. 联手寒武纪发布AI推理服务器,推出AI管理平台,中科曙光也All in AI

    李根 发自 青岛  量子位 报道 | 公众号 QbitAI All in AI,不管是把口号喊响,还是撸起袖子干. 就在计算厂商中科曙光的年度科技峰会上,"All in AI"也从 ...

  7. 全球十大AI训练芯片大盘点:华为昇腾910是中国唯一入选

    乾明 编辑整理  量子位 报道 | 公众号 QbitAI AI芯片哪家强?现在,有直接的对比与参考了. 英国一名资深芯片工程师James W. Hanlon,盘点了当前十大AI训练芯片. 并给出了各个 ...

  8. 钉钉正式接入阿里“通义千问”大模型;金山办公发布“WPS AI”;北大团队推出ChatExcel丨每日大事件...

    ‍ ‍数据智能产业创新服务媒体 --聚焦数智 · 改变商业 企业动态 黑芝麻智能携武当系列智能汽车跨域计算平台.华山开发者计划参加上海车展 4月18日,黑芝麻智能在上海车展现场举办发布会,首席市场营销 ...

  9. 寒武纪3款AI处理器齐发,陈天石3年小目标:占领10亿智能AI终端;占领中国AI云端高性能芯片1/3...

    业界瞩目的智能芯片引领者"寒武纪"6号召开了公司成立以来的首场发布会,隆重发布旗下新一代智能处理器IP产品,并阐述公司未来芯片产品研发路线图.此次发布会由中国科学院主办,寒武纪公司 ...

最新文章

  1. 多线程 阻塞队列中的poll与take区别
  2. 局部特征(5)——如何利用彩色信息 Color Descriptors
  3. nginx给php做统一入口,Nginx如何来配置隐藏入口文件index.php(代码)
  4. 阿里P9架构师分享:通俗易懂Redis原理,都是你没看过的
  5. Apache常用配置项
  6. WinUI 3 Preview 3 发布了,再一次试试它的性能
  7. P3391 【模板】文艺平衡树 fhq-treap 模板
  8. SSLOJ 1335.蛋糕切割
  9. 记一次Spring Batch完整入门实践
  10. python3安装setuptools步骤_python在Windows下安装setuptools(easy_install工具)步骤详解
  11. Spark2.1特征处理:提取/转换/选择
  12. 【企业级框架整合】Springmvc+mybatis+restful+bootstrap框架整合
  13. firefox flash
  14. ES6,ES5,ES3,对比学习~
  15. 等保备案和通信网络单元定级备案的五大区别讲解
  16. 安卓利用谷歌文字转语音引擎实现离线文字播报语音
  17. allegro画两层板板步骤
  18. 《植物大战僵尸》游戏存档修改
  19. 呆老大,奸老二,家家有个坏老三(转载自:http://soulogic.3322.org/blog/read.php/165.html)
  20. 解决ListView显示不全、滑动冲突问题

热门文章

  1. HTML <time> 标签
  2. 正点原子的ATK-LORA-01调试过程
  3. Web前端开发精品课HTML CSS JavaScript基础教程第五章课后编程题答案
  4. iDB是如何运转的 一
  5. Qt:当前窗口注册全局键盘消息
  6. libevent安装
  7. 1.1 NeoCognitron
  8. 12个小球 梅氏砝码问题
  9. ADS1220开发-----驱动代码
  10. XSSFWorkbook,SXSSFWorkbook以及EasyExcel读取Excel文件的比较