M6:一种中文的多模式预训练机

目录:

  1. 回顾

  2. 方法

  3. 下游应用程序

  4. 可扩展到具有万亿个参数的模型

1. 回顾
多模态预训练

模型架构:

l 基于transformer

l 单流或者双流

图像特征:

l 目标特征

l Patch特征

l 原始像素

下游任务:

l 理解:VQA,检索

l 生成:图像字幕

对M6的预期
l 在中文语料库上的预训练模型

l 兼容理解和生成任务

l 与图像文本和明文任务兼容

l 与文本和图像生成兼容

2.方法
M6概述
规模:

Dense模型:0.3B参数量(M6-Base)/10B参数量(M6-Large)

Sparse MoE模型:M6-100B&M6-1T

动机:多模态+多任务(理解与生成)

结构:transformer Block

预训练:多任务预训练

M6结构:

M6 10B
l 添加图层并增加隐藏图层的大小

l 在分布式设备上拟合该模型的策略:

l 混合精度(O2级)

l 激活检查点

l 零优化器和零卸载

l 使用梯度积累来减少gpu之间的通信时间

M6 100B的挑战

  1. 如何降低沟通成本

  2. GPU内存的限制(swap in/out, Zero, CPU offload)



    M6 100B
    l 在whale框架上实现的

l 梯度校验点、XLA、通信优化、混合精度等。

l 128A100s上的1440个samples。

l 与M6-10B相比的LM损失使用了大约一半的训练时间


3. 下游应用
图像字幕


可视化QA

自然语言的下游任务

图象生成

使用两阶段策略,根据输入文本生成图像:

阶段1训练一个VQGAN,将图像编码为破坏代码表示,并高保真地将代码序列解码回图像。

阶段2训练M6根据输入文本作为上下文生成代码序列。
用于文本到图像生成的M6

文本到图像的生成(反事实的)

4. 缩放到三百分之一模型

训练三百分之一模型:

资源:480 NVIDIA V100-32GB gpu

实现:由带宽为100gb的RDMA网络连接的单gpu工人集群。

优化:Adafactor (vs. Adam),为了避免训练的不稳定性,我们使用了较小的学习率和权值初始化

专家原型

辅助平衡损失是有帮助的吗?

辅助损失有助于平衡每个专家的分配,但对模型性能影响很大。为了节省向后内存成本,与Switch&Gshard相比,我们消除了辅助损失。

1t模型的有效性

与M6相关的Papers
M6-base, 10B & 100B: M6: A Chinese Multimodal Pretrainer (KDD 21’)

M6-1T: Exploring Sparse Expert Models and Beyond (arxiv)

Image generation: UFC-BERT: Unifying Multi-Modal Controls for Conditional Image Synthesis (arxiv)

M6-中文多模态预训练模型相关推荐

  1. M6:中文多模态预训练模型

    M6: A Chinese Multimodal Pretrainer 摘要 我们构建了最大数据集的中文多模态预训练模型,包含多个领域的1.9T的图片和292G的文本.我们提出了一种称为M6(Mult ...

  2. 悟道·文澜:北京智源研究院、人大、中科院联手打造的超大规模多模态预训练模型!

    导读 近年来,BERT等预训练语言模型在多类自然语言处理任务上取得了显著的性能提升,从而极大地改写了研究范式.随着OpenAI超大规模语言模型GPT-3的发布,预训练语言模型在自然语言理解能力上再次被 ...

  3. 多模态预训练模型CLIP:中文版本开放使用

    公众号原文(关注公众号,获取一手论文咨询): 多模态预训练模型CLIP:中文版本开放使用 中文项目地址: https://github.com/real-brilliant/chinese_clip_ ...

  4. 金融领域首个开源中文BERT预训练模型,熵简科技推出FinBERT 1.0

    出品 | AI科技大本营 头图 | CSDN付费下载于东方IC 为了促进自然语言处理技术在金融科技领域的应用和发展,熵简科技 AI Lab 近期开源了基于 BERT 架构的金融领域预训练语言模型 Fi ...

  5. 刷新中文阅读理解水平,哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型...

    作者 | HFL 来源 | 哈工大讯飞联合实验室(ID:rgznai100) 为了进一步促进中文自然语言处理的研究发展,哈工大讯飞联合实验室发布基于全词覆盖(Whole Word Masking)的中 ...

  6. 直播回顾 | 最强中文NLP预训练模型艾尼ERNIE官方揭秘

    允中 发自 凹非寺 量子位 编辑 | 公众号 QbitAI "最近刚好在用ERNIE写毕业论文" 看了上面热火的讨论,你一定很好奇"艾尼"."ERNI ...

  7. 独家揭秘!史上最强中文NLP预训练模型 | 直播报名中

    编辑部 发自 凹非寺  量子位 报道 | 公众号 QbitAI 随着AI的快速发展,相信"深度学习"对大部分人来说已经不是一个陌生的概念了.通过深度学习,计算机能够在围棋.电子竞技 ...

  8. 从LXMERT到VLMO:多模态预训练模型的演变史

    ©作者 | 吉雅太 单位 | 清华大学 研究方向 | 多模态研究 自从 2018 年 BERT 在 NLP 领域声名鹊起,通过预训练在 n 多 NLP 任务中刷榜,成功发掘出了 transformer ...

  9. 从多篇2021年顶会论文看多模态预训练模型最新研究进展

    ©PaperWeekly 原创 · 作者 | 小马 单位 | FightingCV公众号运营者 研究方向 | 计算机视觉 背景 1.1.什么是预训练 目前随着数据量爆炸式的增长,靠人工去标注更多数据是 ...

  10. T5 PEGASUS:开源一个中文生成式预训练模型

    ©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 去年在文章那个屠榜的T5模型,现在可以在中文上玩玩了中我们介绍了 Google 的多国语言版 T5 模型( ...

最新文章

  1. 无法定位软件包_使用Degraph管理软件包依赖关系
  2. python常见错误-Python 常见报错类型
  3. c语言不用switch做计算器,超级新手,用switch写了个计算器程序,求指导
  4. python(1):数据类型/string/list/dict/set等
  5. 学习opencv 英文版_电子课本:苏教牛津译林 | 高中英语模块2,赶紧收藏学习吧...
  6. P5024 保卫王国
  7. power接口 sata_sata硬盘不接power接口读的出来吗
  8. android动画 底部弹窗 效果
  9. 知识图谱-生物信息学-医学顶刊论文(Briefings in Bioinformatics-2021):生物信息学中的图表示学习:趋势、方法和应用
  10. 物联网开发平台快速实现ModbusRTU连接
  11. 利用TextRank算法制作一个可以提取聊天关键词的QQ群机器人
  12. java dns 解析域名解析_JavaWeb(3)DNS域名解析
  13. 百度自动php推送蜘蛛怎么不来访问,使用代码向百度蜘蛛主动推送链接
  14. bom实现方块移动_JavaScript之方块移动
  15. 家中为什么要用软路由
  16. python数据清洗笔记
  17. FMDB And Dao
  18. L7 U2 希望与梦想
  19. dcl是什么意思(数据库dcl是什么意思)
  20. esp32cam应用一 点亮我的TFT小屏幕

热门文章

  1. cesium 模型、航迹(官方网站代码合并)
  2. python建立一个简单的server_使用Python创建一个简易的Web Server
  3. 如何解决Mac App Store无法更新应用的问题
  4. 华为设备配置通过GRE接入虚拟专用网
  5. 【2016常州一中夏令营Day5】
  6. 德国可持续建筑证书(DGNB)认证体系
  7. 【运维】服务器系统安装 -- 桌面版
  8. 表单提交 form选择
  9. phpqrcode生成含logo二维码
  10. py读取本地图片并返回图片给前端base64格式