华为参战！国产之光盘古大模型推：盘古Chat

盘古Chat是华为基于盘古大模型开发的一款多模态千亿级大模型产品，可以支持多种自然语言理解和生成的任务，如文本生成、问答、翻译、对话等。它是直接对标目前比较火爆的ChatGPT的产品，被认为是新一代的国产“AI”王炸。

盘古Chat预计将于今年7月7日举行的华为云开发者大会(HDC.Cloud 2023)上对外发布以及内测，产品主要面向To B/G政企端客户。根据华为公布的一份论文数据显示，华为盘古PanGu-Σ大模型参数最多为1.085万亿，基于华为自研的MindSpore框架开发。整体来看，PanGu-Σ大模型在对话方面可能已接近GPT-3.5的水平。

盘古Chat是基于盘古大模型的一个应用场景，而盘古大模型则是由NLP大模型、CV大模型、多模态大模型、科学计算大模型等多个大模型构成，通过模型泛化，解决传统AI作坊式开发模式下不能解决的AI规模化、产业化难题。盘古大模型于2021年4月正式对外发布，后来又在2022年4月升级到2.0版本。目前，AI大模型中的NLP大模型、CV大模型以及科学计算大模型（气象大模型）均已被标记为即将上线状态。

盘古Chat的优势在于人才储备和算力自主可控，有望成为国内领先的大模型，其生态产业链标的有望迎来加速发展，包括拓维信息、四川长虹、麒麟软件（中国软件）、统信软件（诚迈科技）、麒麟信安等华为生态公司。

盘古大模型

盘古大模型是华为开发的一系列大规模自回归中文预训练语言模型，包括 NLP 大模型、CV 大模型、多模态大模型、科学计算大模型等。它们都是基于昇腾计算产业生态构建的，可以在不同的行业和场景中提供智能化的服务和解决方案。

其中，NLP 大模型是业界首个超千亿参数的中文预训练大模型，被认为是最接近人类中文理解能力的AI大模型。它首次使用Encoder-Decoder架构，兼顾NLP理解与生成的能力。在预训练阶段学习了超40TB文本数据，并通过行业数据的小样本调优，提升模型在场景中的应用性能。在权威的中文语言理解评测基准CLUE榜单中，盘古NLP大模型在总排行榜及分类、阅读理解单项均排名第一，刷新三项榜单世界历史纪录；总排行榜得分83.046（人类水平是85.61分），多项子任务得分业界领先。

CV 大模型是超过30亿参数的业界最大CV大模型，首次实现模型按需抽取，首次实现兼顾判别与生成能力。它可以基于模型大小和运行速度需求，自适应抽取不同规模模型，AI应用开发快速落地，使AI开发进入工业化模式。使用层次化语义对齐和语义调整算法，在浅层特征上获得了更好的可分离性，使小样本学习的能力获得了显著提升，达到业界第一。

多模态大模型具备图像和文本的跨模态理解、检索与生成能力。它可以根据不同的输入和输出类型，生成适合的内容和回复。例如，它可以根据一段文字生成一幅图像，或者根据一幅图像生成一段文字。

科学计算大模型主要解决各种科学问题，旨在用AI促进基础科学的发展。它可以用于物理、化学、生物等领域的研究和探索，例如气象预报、药物设计、材料发现等。

除了以上四个基础大模型（L0）以外，盘古大模型还包括图网络（Graph）大模型，首创图网络融合技术，在工艺优化、时序预测、智能分析等场景有广泛应用。

盘古大模型不断进化，共分为L0、L1、L2三个层级。L0指基础大模型，L1指行业大模型，L2则是指面向更加细分场景的推理模型。目前，在 L1级别的行业大模型方面，华为已经推出了盘古金融大模型、盘古矿山大模型、盘古气象大模型、盘古电力大模型、盘古制造质检大模型、盘古药物分子大模型等行业大模型。在 L2级细分场景模型方面，华为已经推出，例如基于气象大模型的短临气象预报、台风预测等场景模型；例如基于电力大模型的无人机电力巡检、电力缺陷识别等场景模型；例如基于时尚大模型的时尚辅助设计、时尚版权保护等场景模型。此外，在物联网、智能座舱、智能驾驶等领域，华为都已推出基于盘古大模型的各种应用。

在生态建设方面，华为盘古大模型是基于昇腾计算产业生态。关于AI生态型产业链，华为提出“一平台双驱动”的模式。其中“一平台”指基础软件平台，包括AI处理器、服务器硬件以及芯片使能软件、AI框架。“双驱动”指平台要支撑的两大生态，一是技术生态，二是商业生态，包括ISV（独立软件开发商）、IHV（独立硬件开发商）、整机、一体机合作伙伴等。

盘古大模型和GPT-3的差别

盘古大模型和GPT-3都是基于Transformer的大规模自回归预训练语言模型，都可以应用于多种自然语言理解和生成的任务，都具有强大的泛化能力和迁移能力。

但是，它们之间也有一些区别，主要体现在以下几个方面：

语言范围：盘古大模型主要应用于中文的文本生成、问答、翻译等任务。而GPT-3则可以应用于英文和其他语言的文本生成、翻译、自然语言推理、问题回答等任务。

数据来源：盘古大模型的训练数据来自于中文网络数据，包括维基百科、百度百科、新闻、论坛、社交媒体等，总共超过40TB。这种多样性的数据来源使得盘古模型拥有更广泛的知识和语言能力，对于中文应用来说具有很大的优势。

GPT-3的训练数据主要来自于英文网络数据，包括维基百科、谷歌书籍、新闻等，总共约45TB。
参数规模：盘古大模型有2000亿个参数，比 GPT-3 的1750亿稍高一点。参数规模越大，意味着模型可以学习到更多的信息和知识，也可以处理更复杂的任务。

架构设计：盘古大模型采用了Encoder-Decoder架构，兼顾了NLP理解与生成的能力。GPT-3则采用了Decoder-only架构，主要侧重于NLP生成的能力。Encoder-Decoder架构可以更好地处理输入和输出之间的对齐和映射关系，例如机器翻译、文本摘要等任务。

训练方式：盘古大模型在预训练阶段使用了多任务学习的方式，将不同的下游任务转化为语言模型的训练目标，例如机器翻译、阅读理解、文本分类等。这样可以使得模型在不同任务上共享知识和特征，提高泛化能力和迁移能力。

GPT-3则在预训练阶段只使用了单任务学习的方式，即自回归语言建模。

信息源：

(1) 一文看懂：华为盘古系列AI大模型到底是个啥？（附：盘古发布会观看地址） – 知乎. https://zhuanlan.zhihu.com/p/619518908.

(2) 大语言模型汇总（ChatGPT、盘古、通义、文心一言、混元）AI_Frank的博客-CSDN博客. https://blog.csdn.net/qq_30653631/article/details/130049481. (3) 华为加入大模型军备竞赛，“盘古Chat”将于7月发布药物行业分子. https://www.sohu.com/a/682291393_161795.

(4) 盘古大模型和GPT 专家交流思考 – 知乎 – 知乎专栏. https://zhuanlan.zhihu.com/p/617572386.

(5) 华为云提出盘古气象大模型：中长期气象预报精度首次超过传统数值方法，速度提升10000倍以上 – 知乎. https://zhuanlan.zhihu.com/p/582285853.

(6) HUAWEI4月8号发布中国版chatGPT盘古大模型 – 知乎 – 知乎专栏. https://zhuanlan.zhihu.com/p/619325773.

(7) 拆解华为盘古大模型：与 ChatGPT 有何不同？ – 知乎专栏. https://zhuanlan.zhihu.com/p/620559828.

(8) GPT综述-各模型之间的对比 – 知乎 – 知乎专栏. https://zhuanlan.zhihu.com/p/450074465.

(9) 大语言模型汇总（ChatGPT、盘古、通义、文心一言、混元）_AI_Frank的博客-CSDN博客. https://blog.csdn.net/qq_30653631/article/details/130049481.

(10) 消息称华为版ChatGPT“盘古 Chat”7月7日发布，面向To B/G政企端客户TechWeb. http://www.techweb.com.cn/it/2023-06-04/2928151.shtml.

(11) 消息称华为版 ChatGPT“盘古 Chat”7 月 7 日发布，面向 To B / G 政企端客户 – IT之家. https://www.ithome.com/0/697/519.htm.

(12) 好消息！华为自研ChatGPT将于7月7日发布命名盘古Chat直接对标ChatGPT模型训练芯片. https://www.sohu.com/a/682076882_120930098.

(13) 华为版ChatGPT要来了！盘古Chat被视为新一代国产“AI”王炸. https://www.163.com/dy/article/I6FL90AN0519DG1H.html.