近年来人工智能的发展,已经从“大炼模型”逐步迈向了“炼大模型”的阶段,通过设计先进的算法,整合尽可能多的数据,汇聚大量算力,集约化地训练大模型,供大量企业使用,这是必然趋势。

——黄铁军,智源研究院院长

作为以人工智能源头创新为使命的新型研究机构,智源研究院2020年10月正式启动超大规模智能模型“悟道”项目,研发既博大又精深的超大规模训练模型,从更加本质的角度进一步探索通用人工智能。同时,构建大规模智能模型应用生态,推动相关机构和个人开发者基于模型研发各类新型智能应用,服务我国实体经济产业升级。

3月20日,北京智源人工智能研究院举办“智源悟道1.0 AI研究成果发布会暨大规模预训练模型交流论坛”,并发布了“悟道1.0”。

6月1日,在本次智源大会上,唐杰教授将代表整个悟道团队发布“悟道2.0”。而在此之前,来自悟道团队的10名核心成员(分别来自五个实验室)将从实战角度,为大家讲习“预训练大模型”的技术细节。

线上、线下皆免费报名!



详细议程如下:

会议时间:5月31日

会议地点:静宜厅

讲习班主席:

唐杰 - 清华大学,智源研究院副院长

刘知远 - 清华大学,智源青年科学家

时间

内容

09:00-09:40

大规模预训练语言模型简介

报告嘉宾:韩旭

09:40-10:20

大规模半精度训练

报告嘉宾:张正彦

10:20-10:40

茶歇

10:40-11:20

大规模预训练模型3D加速

报告嘉宾:孙桢波

11:20-12:00

FastMoE开源大规模分布式MoE训练框架

报告嘉宾:裘捷中

13:30-14:10

P-tuning:用连续提示微调增强超大语言模型下游能力

报告嘉宾:刘潇

14:10-14:50

通用语言模型GLM的预训练与微调

报告嘉宾:杜政晓

14:50-15:10

茶歇

15:10-15:50

大规模多模态预训练

报告嘉宾:高一钊

15:50-16:30

CogView:文本到图像生成式预训练

报告嘉宾:丁铭

16:30-17:10

基于大规模预训练的中文对话系统

报告嘉宾:周昊、柯沛

1. 大规模预训练语言模型简介

议题简介:报告将系统介绍已有的预训练模型范式与特点。

讲习嘉宾:韩旭

韩旭,清华大学计算机科学与技术系博士生,导师为刘知远副教授,研究方向为自然语言处理、知识图谱、信息抽取、预训练语言模型。

2. 大模型半精度训练

议题简介:半精度是高效训练大规模神经网络重要基础,报告将介绍对比现有的几种计算精度,并分析半精度使用过程中的注意事项。作为样例,报告将介绍基于torch的apex包使用方法,以及背后的半精度基本计算原理,包括分布式计算中的模型参数同步以及梯度回传过程中的损失缩放。

讲习嘉宾:张正彦

张正彦,清华大学计算机科学与技术系博士生,师从刘知远副教授。研究方向为预训练语言模型,曾以第一作者身份在ACL、EMNLP等国际知名会议发表多篇论文。

3. 大规模预训练模型3D加速

议题简介:随着训练规模的增大,各种分布式训练框架被广泛运用在大规模预训练模型中。为了高效地训练大规模模型,目前主要采用了包括数据并行、模型并行、流水线并行等的并行策略。报告中将介绍和比较这些并行策略的特点,并介绍如划分策略等能够加速模型训练的技术。

讲习嘉宾:孙桢波

孙桢波,清华大学计算机科学与技术系博士生,师从陈文光教授,参与CPM训练工作。

4. FastMoE: 开源大规模分布式MoE训练框架

议题简介:MoE已经成为通往万亿参数大模型的重要工具。报告将介绍开源大规模分布式MoE训练框架FastMoE,并且着重介绍最新的FastMoE v0.2的一些特性。包括(1)全新的负载均衡模块,支持 NoisyGate、GShard、Swith Transformer 等负载均衡策略;(2)同时支持英伟达GPU平台 和 神威国产超算平台;(3)1.75万亿模型训练实战。

讲习嘉宾:裘捷中

裘捷中,清华大学计算机科学与技术系五年级博士生,导师为唐杰教授。他的研究兴趣主要包括图表示学习和大规模预训练。

5. P-tuning:用连续提示微调增强超大语言模型下游能力

议题简介:报告主要介绍在大模型时代如何利用连续提示微调的方法,提高预训练语言模型在知识探测和自然语言理解方面的能力。

讲习嘉宾:刘潇

刘潇,清华大学计算机系硕士生,师从唐杰教授,主要研究方向是机器学习、知识图谱和数据挖掘。

6. 通用语言模型GLM的预训练与微调

议题简介:近年来已经存在各种类型的预训练架构,包括自编码模型(例如BERT),自回归模型(例如GPT)和编码器-解码器模型(例如T5)。另一方面,NLP任务本质上是不同的,三个主要类别是分类,无条件生成和有条件生成。但是,没有一个预训练框架在所有任务上都表现最佳,这给模型开发和选择带来了不便。我们提出了一种新的预训练框架GLM(General Language Model),它通过自回归填空训练来应对这一挑战。与以前的工作相比,我们的预训练框架具有三个主要优点:(1)由于改进了预训练-微调的一致性,在分类方面优于BERT类模型。(2)它自可以然地处理可变长度的填空,这对于许多下游任务至关重要。实验表面,在相同的预训练条件下,GLM在SuperGLUE自然语言理解基准上的性能大大优于BERT。(3)用一个单一的预训练模型,GLM可以在分类,无条件生成和有条件生成任务上表现良好。参数为BERT-Large的1.25倍的GLM在自然语言理解、有条件和无条件生成的同时达到了最佳性能,这证明了其对不同下游任务的通用性。

讲习嘉宾:杜政晓

杜政晓,清华大学计算机系博士生,师从唐杰教授,曾以第一作者身份在KDD、TKDE、SIGIR等国际知名会议和期刊发表多篇论文。

7. 大规模多模态预训练

议题简介:近年来,基于多模态数据的语义理解与认知探索成为了人工智能领域的一个重要研究热点,旨在使计算机拥有针对多种模态数据的表示、计算与推理能力。即将发布的文澜2.0是首个中英文多模态双塔模型。文澜2.0在1.0的基础上进行了多方面改进:采用了更大的参数量和更多的数据;选择使用Multi-Grid Split池化方法来替换检测器,从而显著减少计算代价,并保持模型的细节捕捉能力;采用了高效的分布式多模态预训练框架,提出基于DeepSpeed的多模态预训练算法,最大化利用GPU和CPU,并最优地支持跨模态对比学习。

讲习嘉宾:高一钊

高一钊,中国人民大学高瓴人工智能学院博士生,师从卢志武教授;全面参与了悟道·文澜1.0和2.0的图文预训练工作。

8. CogView:文本到图像生成式预训练

议题简介:通用领域文本到图像的生成到目前为止一直是一个开放性问题,它需要强大的生成模型的和跨模态理解的能力。我们提出了一个40亿参数的Transformer模型和VQ-VAE图像分词器来解决这个问题。我们还展示了各种下游任务的微调策略,例如风格学习、超分辨率、文本图像自排序和时装设计,以及稳定预训练的方法(例如这些方法可以消除NaN损失)。CogView(零样本)在低分辨率MS COCO上取得了目前最好的Fréchet Inception Distance,优于以前基于GAN的模型和最近类似的工作DALL-E。

讲习嘉宾:丁铭

丁铭,清华大学计算机科学与技术系博士生,师从唐杰教授。研究方向为认知智能,曾以第一作者身份在NeurIPS、KDD、ACL、CIKM等国际知名会议发表多篇论文。

9. 基于大规模预训练的中文对话系统

议题简介:随着对话语料规模和机器算力的增加,近年来出现了许多基于大规模预训练的对话模型,如 DialoGPT,Meena,Blender,Plato 等等,其在某些测试环境下可以达到接近人类的开放领域对话水平。报告将从数据、模型和演示三个方面介绍基于大规模预训练的中文对话系统的构造过程。

讲习嘉宾:周昊

周昊,清华大学计算机科学与技术系博士生,师从朱小燕教授。研究方向为知识驱动的对话生成,曾以第一作者身份在ACL、AAAI、IJCAI、WWW等国际知名会议发表多篇论文。

讲习嘉宾:柯沛

柯沛,清华大学计算机科学与技术系博士生,师从朱小燕教授。研究方向为可控自然语言生成,曾以第一作者身份在ACL、EMNLP等自然语言处理顶级会议上发表论文。


智源大会完整日程

- 点击阅读原文或长按图片,内行盛会,免费注册-


扫码加入「预训练」论坛交流群,参与相关话题讨论

硬核讲习,10名“悟道”核心成员,剖析大模型相关推荐

  1. Rasa 3.X 智能对话机器人案例开发硬核实战高手之路 (7大项目Expert版本)

    课程标题:Rasa 3.X 智能对话机器人案例开发硬核实战高手之路(7大项目Expert版本) 课程关键字:Rasa Application.Debugging.E-commerce.Retail.C ...

  2. 苏宁大数据怎么运营_18个“硬核”数据告诉你,苏宁大数据如何火力全开护航618!...

    点击蓝字 关注我们 这个618,"高潮"迭起! 全国首档综艺电商"超级秀"C位出道 苏宁易购全渠道销售暴增129% 618当天手机3C类4秒销售破亿 家乐福&q ...

  3. 杭电和苏大计算机考研,江苏省各高校“排行榜”出炉,江苏大学10名开外,南大当属第一!...

    江苏省是我国一所教育大省,在一些教育资源一般的省市里,可能只有1所211,而江苏省却足足有11所211.这11所211高校,有的排名甚至比部分985高校还要高. 教育资源好.经济发展好,使得江苏省成为 ...

  4. 活动报名丨悟道开放日:大模型最新研究进展、应用开发训练营、50+闪电演讲作者面对面...

    时间地点 时间:2023年3月19日 09:30-20日16:30 地点:智源大厦一层报告厅(海淀区成府路150号) 活动详情 2022年3月19-20日,由北京智源人工智能研究院主办的「2022悟道 ...

  5. 单卡30秒预测未来10天全球天气,大模型“风乌”效果超DeepMind,来自上海人工智能实验室...

    允中 发自 凹非寺 量子位 | 公众号 QbitAI 预测未来10天全球天气,仅需30秒. 这一成果来自全球中期天气预报大模型"风乌",这也是全球气象有效预报时间首次突破10天,并 ...

  6. 史上最硬核网页截图方案原理深度剖析

    作者 | 陈亮 靡不有初,鲜克有终 简介 剖析流行的截图插件 html2canvas 的实现方案,探索其功能上的一些不足之处及不能正确截取的一些场景,比如不支持 css 的 box-shadow 截取 ...

  7. access集团和abm_abm展示硬核实力,ACCESS集团携8大国际品牌在进博会首秀!

    小编先来科普下进博会,它跟美博会是完全不‭‮样一‬‬的,广州‭‮会博美‬‬微商品牌很多,只要有钱就能参加,鱼龙混杂,‭‮规正‬‬不正规都有 而进博会,是中国扩大开放和推进全球化的重要平台,加速了中国从 ...

  8. 铲个屎都这么硬核?!小哥用姿势检测模型,搞了个狗粑粑探测摄像头

    丰色 发自 凹非寺 量子位 | 公众号 QbitAI 盆友,假如,我是说假如你有一个很大的后院,还有一条可爱的狗子. 狗子每天都在院子里撒欢,然后拉下一坨又一坨的便便-- 而你的后院夏天长满杂草,冬天 ...

  9. Kylin 认证培训硬核召集令,助力打造金融科技大数据紧缺人才

    ​Kylin 入选<上海市重点领域(金融类)"十四五"紧缺人才开发目录> 数字经济已成为全球增长新动能,我国数字经济规模位居世界第二,数字人才成为我国经济全面数字化转型 ...

  10. 10几个国内AI大模型,让你的工作学习效率翻倍!

    文章目录 前言 1.道和顺ChatIC 2.星期五 3.文心一言 4.讯飞星火认知大模型 5.通义千问 6.商汤-日日新 7.Moss 8.ChatGLM 9. 360智脑 写在最后 ✍创作者:全栈弄 ...

最新文章

  1. BIOS英文报错详解;你虽会做系统,但你会看BIOS英文报错吗,仅供大家参考学习。...
  2. python零基础怎么学-python 零基础该怎么学?
  3. 使用bootstrap-table等自动使用ajax地址载入数据的插件的数据设计建议
  4. Spring之旅—Spring模块介绍
  5. 【Android开发】我的第一个安卓程序
  6. 创建win32 dll
  7. React开发(236):dva概念1数据流向
  8. java迭代器逆序_迭代器
  9. 函数返回结构体指针_9.3 结构体指针
  10. MATLAB的PLOT函数线型设置及横坐标为字符串的代码实例
  11. margin-top/bottom(padding-top/bottom)百分比以祖级宽度计算
  12. LeetCode 583 两个字符串的删除操作
  13. vim 使用、设置笔记
  14. 极大似然估计_一文理解机器学习中的极大似然估计(MLE)
  15. Latex tabular 表格
  16. 可以在手机预览ps设计稿的软件
  17. qq2018旧版本7.3.1下载_QQ旧版本2018下载
  18. 链家二手房信息爬取(内附完整代码)
  19. 普通云硬盘,高性能云硬盘和SSD云硬盘三者之间有什么区别?
  20. 大数据时代你需要知道的7个大数据定义

热门文章

  1. 五种前端布局之table布局
  2. DW制作小三角型教程
  3. maxscale mysql_安装maxscale MySql读写分离
  4. 利用gflags自定义标志的使用方法
  5. Basler相机全部型号详细参数
  6. 七牛base64上传图片带格式
  7. matlab newton插值法,Matlab程序Newton插值函数
  8. MATLAB约束优化之惩罚函数法
  9. 120xa变频器调试参数_图文并茂 | 西门子G120变频器的面板调试操作
  10. cad汉仪长仿宋体_cad长仿宋体下载