盘古Chat是华为基于盘古大模型开发的一款多模态千亿级大模型产品,可以支持多种自然语言理解和生成的任务,如文本生成、问答、翻译、对话等。它是直接对标目前比较火爆的ChatGPT的产品,被认为是新一代的国产“AI”王炸。

盘古Chat预计将于今年7月7日举行的华为云开发者大会(HDC.Cloud 2023)上对外发布以及内测,产品主要面向To B/G政企端客户。根据华为公布的一份论文数据显示,华为盘古PanGu-Σ大模型参数最多为1.085万亿,基于华为自研的MindSpore框架开发。整体来看,PanGu-Σ大模型在对话方面可能已接近GPT-3.5的水平。

盘古Chat是基于盘古大模型的一个应用场景,而盘古大模型则是由NLP大模型、CV大模型、多模态大模型、科学计算大模型等多个大模型构成,通过模型泛化,解决传统AI作坊式开发模式下不能解决的AI规模化、产业化难题。盘古大模型于2021年4月正式对外发布,后来又在2022年4月升级到2.0版本。目前,AI大模型中的NLP大模型、CV大模型以及科学计算大模型(气象大模型)均已被标记为即将上线状态。

盘古Chat的优势在于人才储备和算力自主可控,有望成为国内领先的大模型,其生态产业链标的有望迎来加速发展,包括拓维信息、四川长虹、麒麟软件(中国软件)、统信软件(诚迈科技)、麒麟信安等华为生态公司。

盘古大模型

盘古大模型是华为开发的一系列大规模自回归中文预训练语言模型,包括 NLP 大模型、CV 大模型、多模态大模型、科学计算大模型等。它们都是基于昇腾计算产业生态构建的,可以在不同的行业和场景中提供智能化的服务和解决方案。

其中,NLP 大模型是业界首个超千亿参数的中文预训练大模型,被认为是最接近人类中文理解能力的AI大模型。它首次使用Encoder-Decoder架构,兼顾NLP理解与生成的能力。在预训练阶段学习了超40TB文本数据,并通过行业数据的小样本调优,提升模型在场景中的应用性能。在权威的中文语言理解评测基准CLUE榜单中,盘古NLP大模型在总排行榜及分类、阅读理解单项均排名第一,刷新三项榜单世界历史纪录;总排行榜得分83.046(人类水平是85.61分),多项子任务得分业界领先。

CV 大模型是超过30亿参数的业界最大CV大模型,首次实现模型按需抽取,首次实现兼顾判别与生成能力。它可以基于模型大小和运行速度需求,自适应抽取不同规模模型,AI应用开发快速落地,使AI开发进入工业化模式。使用层次化语义对齐和语义调整算法,在浅层特征上获得了更好的可分离性,使小样本学习的能力获得了显著提升,达到业界第一。

多模态大模型具备图像和文本的跨模态理解、检索与生成能力。它可以根据不同的输入和输出类型,生成适合的内容和回复。例如,它可以根据一段文字生成一幅图像,或者根据一幅图像生成一段文字。

科学计算大模型主要解决各种科学问题,旨在用AI促进基础科学的发展。它可以用于物理、化学、生物等领域的研究和探索,例如气象预报、药物设计、材料发现等。

除了以上四个基础大模型(L0)以外,盘古大模型还包括 图网络(Graph)大模型 ,首创图网络融合技术,在工艺优化、时序预测、智能分析等场景有广泛应用。

盘古大模型不断进化,共分为L0、L1、L2三个层级。L0指基础大模型,L1指行业大模型,L2则是指面向更加细分场景的推理模型。目前,在 L1级别的行业大模型 方面,华为已经推出了盘古金融大模型、盘古矿山大模型、盘古气象大模型、盘古电力大模型、盘古制造质检大模型、盘古药物分子大模型等行业大模型。在 L2级细分场景模型 方面,华为已经推出,例如基于气象大模型的短临气象预报、台风预测等场景模型;例如基于电力大模型的无人机电力巡检、电力缺陷识别等场景模型;例如基于时尚大模型的时尚辅助设计、时尚版权保护等场景模型。此外,在物联网、智能座舱、智能驾驶等领域,华为都已推出基于盘古大模型的各种应用。

在 生态建设方面 ,华为盘古大模型是基于昇腾计算产业生态。关于AI生态型产业链,华为提出“一平台双驱动”的模式。其中“一平台”指基础软件平台,包括AI处理器、服务器硬件以及芯片使能软件、AI框架。“双驱动”指平台要支撑的两大生态,一是技术生态,二是商业生态,包括ISV(独立软件开发商)、IHV(独立硬件开发商)、整机、一体机合作伙伴等。

盘古大模型和GPT-3的差别

盘古大模型和GPT-3都是基于Transformer的大规模自回归预训练语言模型,都可以应用于多种自然语言理解和生成的任务,都具有强大的泛化能力和迁移能力。

但是,它们之间也有一些区别,主要体现在以下几个方面:

语言范围:盘古大模型主要应用于中文的文本生成、问答、翻译等任务。而GPT-3则可以应用于英文和其他语言的文本生成、翻译、自然语言推理、问题回答等任务。

数据来源:盘古大模型的训练数据来自于中文网络数据,包括维基百科、百度百科、新闻、论坛、社交媒体等,总共超过40TB。这种多样性的数据来源使得盘古模型拥有更广泛的知识和语言能力,对于中文应用来说具有很大的优势。

GPT-3的训练数据主要来自于英文网络数据,包括维基百科、谷歌书籍、新闻等,总共约45TB。
参数规模:盘古大模型有2000亿个参数,比 GPT-3 的1750亿稍高一点。参数规模越大,意味着模型可以学习到更多的信息和知识,也可以处理更复杂的任务。

架构设计:盘古大模型采用了Encoder-Decoder架构,兼顾了NLP理解与生成的能力。GPT-3则采用了Decoder-only架构,主要侧重于NLP生成的能力。Encoder-Decoder架构可以更好地处理输入和输出之间的对齐和映射关系,例如机器翻译、文本摘要等任务。

训练方式:盘古大模型在预训练阶段使用了多任务学习的方式,将不同的下游任务转化为语言模型的训练目标,例如机器翻译、阅读理解、文本分类等。这样可以使得模型在不同任务上共享知识和特征,提高泛化能力和迁移能力。

GPT-3则在预训练阶段只使用了单任务学习的方式,即自回归语言建模。

信息源:

(1) 一文看懂:华为盘古系列AI大模型到底是个啥?(附:盘古发布会观看地址) – 知乎. https://zhuanlan.zhihu.com/p/619518908.

(2) 大语言模型汇总(ChatGPT、盘古、通义、文心一言、混元)AI_Frank的博客-CSDN博客. https://blog.csdn.net/qq_30653631/article/details/130049481. (3) 华为加入大模型军备竞赛,“盘古Chat”将于7月发布药物行业分子. https://www.sohu.com/a/682291393_161795.

(4) 盘古大模型和GPT 专家交流 思考 – 知乎 – 知乎专栏. https://zhuanlan.zhihu.com/p/617572386.

(5) 华为云提出盘古气象大模型:中长期气象预报精度首次超过传统数值方法,速度提升10000倍以上 – 知乎. https://zhuanlan.zhihu.com/p/582285853.

(6) HUAWEI4月8号发布中国版chatGPT盘古大模型 – 知乎 – 知乎专栏. https://zhuanlan.zhihu.com/p/619325773.

(7) 拆解华为盘古大模型:与 ChatGPT 有何不同? – 知乎专栏. https://zhuanlan.zhihu.com/p/620559828.

(8) GPT综述-各模型之间的对比 – 知乎 – 知乎专栏. https://zhuanlan.zhihu.com/p/450074465.

(9) 大语言模型汇总(ChatGPT、盘古、通义、文心一言、混元)_AI_Frank的博客-CSDN博客. https://blog.csdn.net/qq_30653631/article/details/130049481.

(10) 消息称华为版ChatGPT“盘古 Chat”7月7日发布,面向To B/G政企端客户TechWeb. http://www.techweb.com.cn/it/2023-06-04/2928151.shtml.

(11) 消息称华为版 ChatGPT“盘古 Chat”7 月 7 日发布,面向 To B / G 政企端客户 – IT之家. https://www.ithome.com/0/697/519.htm.

(12) 好消息!华为自研ChatGPT将于7月7日发布 命名盘古Chat直接对标ChatGPT模型训练芯片. https://www.sohu.com/a/682076882_120930098.

(13) 华为版ChatGPT要来了!盘古Chat被视为新一代国产“AI”王炸. https://www.163.com/dy/article/I6FL90AN0519DG1H.html.

华为参战!国产之光盘古大模型推:盘古Chat相关推荐

  1. 华为申请注册盘古大模型商标;京东推出言犀大模型,率先布局产业应用

    7月14日科技新闻早知道,一分钟速览. 1.华为申请注册盘古大模型商标: 据天眼查 App 显示,7 月 7 日,华为技术有限公司申请注册"华为云盘古"."Huawei ...

  2. 华为高级研究员谢凌曦:下一代AI将走向何方?盘古大模型探路之旅

    摘要:为了更深入理解千亿参数的盘古大模型,华为云社区采访到了华为云EI盘古团队高级研究员谢凌曦.谢博士以非常通俗的方式为我们娓娓道来了盘古大模型研发的"前世今生",以及它背后的艰难 ...

  3. 专家解惑 | 关于华为云盘古大模型,你想问的都在这里~

    本文分享自华为云社区<专家解惑 | 关于华为云盘古大模型,你想问的都在这里~>,原文作者:HWCloudAI. 4月25日,华为云发布盘古系列超大规模预训练模型,包括30亿参数的全球最大视 ...

  4. 华为AI盘古大模型研究框架

    目前我们将迎来科技的重大转折点:ChatGPT时刻.而在ChatGPT背后,不断迭代的GPT系列使得大模型成为当下科技企业核心竞争力的重要体现,未来,大模型将成为AIGC时代的核心支撑. 关注公众号: ...

  5. 《预训练周刊》第8期:首个千亿中文大模型「盘古」问世、谷歌等提出视频音频文本转换器VATT...

    No.08 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第8期< ...

  6. 跨越AI天堑时:行动代号“盘古大模型”

    我采访过一个案例,某工厂的IT负责人想要应用AI,咨询之后却发现开发成本过于高昂,人才.算力.算法等条件都不具备,最后只能作罢. 我认识一位朋友,任职于某家AI技术供应商,他们推出的行业解决方案备受好 ...

  7. 华为云盘古大模型登Nature:秒级完成气象预测,速度快一万多倍

    作者 | xxx  编辑 | 汽车人 原文链接:xxxxx 点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 本文只做学术分享,如有侵权,联系删文 华为云盘古气 ...

  8. 预报提速10000倍以上!华为云盘古气象大模型研究成果登上《自然》正刊 | 美通社头条...

    美通社消息,国际顶级学术期刊<自然>(Nature)杂志正刊发表了华为云盘古大模型研发团队研究成果 --<三维神经网络用于精准中期全球天气预报>(<Accurate me ...

  9. 透视鹏程.盘古:首个2000亿参数中文大模型是怎样炼成的?

    2021-05-19 10:21:00 机器之心原创 机器之心编辑部 给足算力和数据,就能训练出千亿参数的大模型?事实没有那么简单. 「70 年的人工智能研究史告诉我们,利用计算能力的一般方法最终是最 ...

最新文章

  1. 哈夫曼树实现压缩文件
  2. 交大c语言第二次作业答案,C语言程序设计第二次作业题及答案.doc
  3. linux标准i/o,Linux 标准I/O笔记
  4. 李彦宏乌镇谈人工智能:百度会很快和雄安宣布一个大的智能城市计划
  5. 角度编码器 ST-3806-15-RS
  6. dll文件是什么语言编写的_Win7系统当中libeay32.dll文件丢失的解决方法是什么?...
  7. SAP中凭证类型的作用
  8. good food to buy when at the train station
  9. hdu 3303(线段树+抽屉原理)
  10. NHibernate配置入门
  11. QT的QMultiMap类的使用
  12. 以IP段作为监听地址
  13. Java中文与ASCII码的转换
  14. 不买iPhone11的四大理由,最后一个扎心了
  15. 隐藏元素 mayaa
  16. 3D人脸重建算法汇总
  17. hdmi接口有什么用_科普一下:电脑显示器用什么接口好,主流接口有哪些?
  18. ios开发网络学习AFN框架的使用一:get和post请求
  19. linux环境下vi编辑器的模式及模式切换方法,文件保存退出方法,Linux环境下vi/vim编辑器常用命令...
  20. 科学家提出记忆形成新解 大脑玩的拼图游戏

热门文章

  1. 西门子PLC S1500新能源pack线程序(含触摸屏程序)
  2. 王者荣耀s19赛季服务器维护,王者荣耀S19赛季突然宣布更新,缺少以往大肆宣传的背后隐藏了什么...
  3. 利用ai分析人形,移动鼠标爆头
  4. 致230+粉丝的一封信
  5. 签名不对,请检查签名是否与开发平台上填写的一致
  6. 基频抖动Jitter
  7. http2究竟何方神圣?大白话总结
  8. 计算机学院学生会会徽设计,计算机工程学院学生会会徽与会旗
  9. 安卓APP设计规范之1080*1920设计稿对应开发尺寸
  10. Rust学习:5_所有权与借用