中国信息通信研究院近日发布了《人工智能白皮书(2022年)》,白皮书指出人工智能进入了新的发展阶段,将向技术创新、工程实践、可信安全”三维”坐标来定义和牵引。算法、算力和数据被认为是人工智能发展的三驾马车。在算法层面,超大规模预训练模型成为近两年最受关注的热点之一,不断刷新各个记录,其中百度ERNIE3.0模型在自然语言理解任务的综合评分(GLUE)已达90%以上,高居世界第一。

01人工智能发展历史

1941年世界第一台计算机诞生15年后,香农、赫伯特 西蒙等大佬参加的”达特茅斯会议”第一次出现了人工智能这个术语,被认为是人工智能的正式诞生。第一个人工智能的浪潮,科学家们雄心勃勃,希望写出伟大的算法来模拟人类的思想过程。但是算力的问题导致设计再精妙的算法也算不动。在沉寂十年时候,算力推动了第二波人工智能的浪潮,1982年日本和美国都投入巨资研发第五代计算机即”人工智能计算机”,希望一举突破人工智能在算力上的限制。仅仅几年后,科学家们发现即使芯片按照摩尔定律的速度发展仍然满足不了算力的要求,但是没有数据输入到算法,导致第二波人工智能浪潮也沉寂了。

得益于深度学习等算法的突破、算力的不断提升和海量数据的持续积累,人工智能得以真正的从实验室走向产业实践。2016年的阿尔法狗击败了围棋世界冠军李世石,代表了新一代的人工智能,依赖机器学习就可以自成大师,甚至能自创人类经验中从来没有的新棋路,深度学习实现了人工智能的一次飞跃。

02预训练是什么

如果我们把人工智能算法模型的能力用高中水平、大学水平类比的话,之前为了训练一个领域的模型,我们需要从幼儿园开始训练,直至到该领域的水平才行,比如需要训练到大学水平。这个训练的周期会很长,同时意味着付出的成本也较高。

预训练是将大规模低成本获取的训练数据放到一起,通过预训练的方法来学习某种共性,比如达到了高中水平。如果某个领域需要大学生水平的模型,那么就需要根据该领域的特殊标记数据进行微调,从而产生该领域的特殊模型,高中水平的模型即大模型。

要想训练出一个大模型,除了算法,还需要超大规模的数据与超大规模的算力,意味着需要花费非常多的钱,一般只有大厂才可以做大模型。

03预训练显著降低了人工智能应用的门槛

以深度学习为代表的算法拉开了人工智能浪潮的序幕,在计算机视觉、智能语音、自然语言处理等领域广泛应用,相继超过了人类识别水平。

预训练出现前,大规模深度学习的在自然语言处理领域的应用门槛相对还是比较高,模型效果非常强依赖个人的能力。预训练模型能够极大的降低这个环节的成本和门槛。预训练模型使得模型的训练可以被复用,也就大幅度降低了训练的成本,比如我们基于通用大模型可以低成本的扩展出金融领域的专用模型。预训练模型是一种迁移学习的应用,对句子每一个成员的上下文进行相关的表示,通过隐式的方式完成了语法语义知识的学习。预训练模型几乎在所有的自然语言处理任务中都取得了不错的成绩,同时预训练模型通过微调的方式具备很强的扩展性,每次在扩展到新场景时,只需要针对这个场景的特定标注数据进行定向的学习,便可以快速的在这个场景进行应用,对机器学习人员的要求大大降低。

对大模型在产研实践感兴趣或者有需求的同学,可以去百度文心官方学习资料,上手工具来开始大模型之旅。官方地址:https://wenxin.baidu.com/

04预训练大模型为什么可以得到快速应用

整体来说,大模型在过去两年得到了快速的发展,也在工业界得到了快速的应用。虽然深度学习使得很多领域的准确率得到很大的提升,但是AI模型目前存在很多挑战,最首要的问题是模型的通用性不高,每个模型都是针对特定的某个领域进行训练的,应用到其他领域的时候,效果并不好。

1. 模型碎片化,大模型提供预训练方案

大模型提供了一种通用化的解决方案,通过“预训练大模型+下游任务微调”的方式,可以有效地从大量标记和未标记的数据中捕获知识,极大地扩展了模型的泛化能力。例如,在NLP领域,预训练大模型共享了预训任务和部分下游任务的参数,在一定程度上解决了通用性的难题,可以被应用于翻译,问答,文本生成等自然语言任务。

2. 通过自监督学习功能,降低训练研发成本

大模型的自监督学习方法,可以减少数据标注,在一定程度上解决了人工标注成本高、周期长、准确度不高的问题。由于减少了数据标准的成本,使得小样本的学习也能达到比以前更好的能力,并且模型参数规模越大,优势越明显,避免开发人员再进行大规模的训练,使用小样本就可以训练自己所需模型,极大降低开发使用成本。

3. 大模型有望进一步突破现有模型结构的精度局限

从深度学习发展的历程来看,模型精度提升,主要依赖网络在结构上的变革。随着神经网络结构设计技术,逐渐成熟并趋于收敛,想要通过优化神经网络结构从而打破精度局限非常困难。近年来,随着数据规模和模型规模的不断增大,模型精度也得到了进一步提升,模型和数据规模的增大确实能突破现有精度的一个局限。

05预训练的三个发展趋势

整个预训练模型也在快速的发展中,整体有三个大的发展趋势。第一是模型越来越大,整个Transformer的层数越来越多,整体的能力也会越来越强,当然带来的训练成本也是越来越高。第二个趋势是训练的方法越来越多,包含各种自动的编码和多任务训练。第三个是向多模态不断演进,从最开始的只学习文本数据到联合学习文本和图像,现在可以处理文本、图像、语音等多模态数据,相信会有更多语言、更多类型数据的大模型会不断涌现,这也是实现人工智能通用化的有益探索。

推荐阅读【技术加油站】系列

揭秘百度智能测试在测试自动生成领域的探索

小程序自动化测试框架原理剖析

百度程序员开发避坑指南(Go语言篇)

百度程序员开发避坑指南(3)

百度程序员开发避坑指南(移动端篇)

百度程序员开发避坑指南(前端篇)

百度工程师教你快速提升研发效率小技巧

百度一线工程师浅谈日新月异的云原生

人工智能超大规模预训练模型浅谈相关推荐

  1. 字节加入“大模型之战”;网易已自研数十个超大规模预训练模型;英伟达2023财年净利润同比下滑55%丨每日大事件...

    ‍ ‍数据智能产业创新服务媒体 --聚焦数智 · 改变商业 企业动态 网易:2022年总营收965亿元 2月23日,网易发布2022年第四季度及全年财报.财报显示,四季度营收254亿元,同比增长4%, ...

  2. 超大规模预训练模型专场直播:模型真的越大越好吗?

    04.09   WorkShop 昇思MindSpore 超大规模AI正成为下一代人工智能的突破口,也是迈向通用人工智能最有潜力的技术方向.产业界和学术界都看到了这种新型范式的潜力,并纷纷入局. 打造 ...

  3. python与人工智能编程-人工智能与Python关系浅谈

    随着科技的发展,嵌入式.物联网.5G.人工智能等技术不断出现,它们正一点一点从实验室走进大众的日常生活,让人们的生活变得更加便利.更加智能,今天我们就来简单谈谈这其中的人工智能技术. 说到 人工智能究 ...

  4. 人工智能与伦理问题浅谈

    第一章 绪论 一,提出问题 人工智能(Artificial Intelligence,缩写为AI)一词,是在1956年的达特茅斯会议上被首次提出来的.作为一门新兴的交叉学科,人工智能在当今脑科学.认知 ...

  5. 智源发布:悟道 · 文汇 | 面向认知,超大规模新型预训练模型

    2021年1月11日,由北京智源人工智能研究院(以下简称"智源研究院").阿里巴巴.清华大学.中国人民大学.中国科学院.搜狗.智谱.AI.循环智能等单位的科研骨干成立"悟 ...

  6. 如何获取高精度CV模型?快来试试百度EasyDL超大规模视觉预训练模型

    在深度学习领域,有一个名词正在被越来越频繁地得到关注:迁移学习.它相比效果表现好的监督学习来说,可以减去大量的枯燥标注过程,简单来说就是在大数据集训练的预训练模型上进行小数据集的迁移,以获得对新数据较 ...

  7. 百度大脑 EasyDL 专业版最新上线自研超大规模视觉预训练模型

    在学习与定制AI模型的过程中,开发者会面对各种各样的概念,在深度学习领域,有一个名词正在被越来越频繁地得到关注:迁移学习.它相比效果表现好的监督学习来说,可以减去大量的枯燥标注过程,简单来说就是在大数 ...

  8. 2021 AI技术盘点:预训练模型5大进展

    [专栏:前沿进展]2021年已进入尾声,回顾一年来人工智能领域的发展历程,有众多瞩目的技术事件发展.其中,预训练模型无疑是2021年的重点发展领域.年初的Switch Transformer开启万亿参 ...

  9. 借鉴人类,跨越模态 | NLP和预训练模型未来的发展之路

    [专栏:研究思路]近来,超大规模预训练模型快速发展,在自然语言处理领域引起热议.基于深度学习的自然语言 处理技术正沿着"极大数据.极大模型.极大算力"的轨道,"无所不用其 ...

最新文章

  1. 30个流行的jQuery Plugins
  2. MongoDB入门简单介绍
  3. 关于cocos creator换装功能的实践与思考
  4. .Net System.Object类介绍
  5. python中name没有定义_Python NameError:全局名称’NAME’未定义! (但它被定义)
  6. 无损1080i到1080p是如何制作的
  7. 漫威超级英雄大全(一)
  8. .NET西安社区「拥抱开源,又见 .NET:壹周年Party」活动简报
  9. Android Things在 #io17
  10. UGUI事件系统——事件接口
  11. Matlab | 省略号作用
  12. 《老路用得上的商学课》21-30学习笔记
  13. 中登托管行结算路径_在非根路径上托管Next.JS应用
  14. golang 学习 - chan以及chan的一下用例
  15. Java Web 网络商城案例演示一、(环境搭建)
  16. BUU刷题记-网鼎杯专栏2
  17. 魔兽世界固态硬盘无法连接服务器,《魔兽世界》9.0配置更改 不再强制要求SSD...
  18. ImportError: packaging>=20.0 is required for a normal functioning of this mo
  19. 毕业设计之 --- 停车管理系统
  20. 【houdini vex】方块穿插

热门文章

  1. PwC子公司Strategy:STO“与ICO没有根本的区别”
  2. shell脚本学习,几个小脚本(if、case、for、while、until语句)
  3. ubuntu14.04显卡驱动问题(amd5600k集显7650d)
  4. 基于Java实现教务管理系统
  5. word中自动添加公式编号以及引用公式编号
  6. 学习Python第一天 ---Hello World
  7. EwoMail邮件系统忘记管理员密码的处理
  8. 集成水槽洗碗机超声波电源发生器
  9. Java 面向对象 【钢镚核恒】
  10. 最常见的家居风水问题点评