M6-中文多模态预训练模型

2024-05-26 22:53:13

M6：一种中文的多模式预训练机

目录：

回顾
方法
下游应用程序
可扩展到具有万亿个参数的模型

1. 回顾
多模态预训练

模型架构：

l 基于transformer

l 单流或者双流

图像特征：

l 目标特征

l Patch特征

l 原始像素

下游任务：

l 理解：VQA，检索

l 生成：图像字幕

对M6的预期
l 在中文语料库上的预训练模型

l 兼容理解和生成任务

l 与图像文本和明文任务兼容

l 与文本和图像生成兼容

2.方法
M6概述
规模：

Dense模型：0.3B参数量（M6-Base）/10B参数量（M6-Large）

Sparse MoE模型：M6-100B&M6-1T

动机：多模态+多任务（理解与生成）

结构：transformer Block

预训练：多任务预训练

M6结构：

M6 10B
l 添加图层并增加隐藏图层的大小

l 在分布式设备上拟合该模型的策略：

l 混合精度（O2级）

l 激活检查点

l 零优化器和零卸载

l 使用梯度积累来减少gpu之间的通信时间

M6 100B的挑战

如何降低沟通成本
GPU内存的限制（swap in/out, Zero, CPU offload）

M6 100B
l 在whale框架上实现的

l 梯度校验点、XLA、通信优化、混合精度等。

l 128A100s上的1440个samples。

l 与M6-10B相比的LM损失使用了大约一半的训练时间

3. 下游应用
图像字幕

可视化QA

自然语言的下游任务

图象生成

使用两阶段策略，根据输入文本生成图像：

阶段1训练一个VQGAN，将图像编码为破坏代码表示，并高保真地将代码序列解码回图像。

阶段2训练M6根据输入文本作为上下文生成代码序列。
用于文本到图像生成的M6

文本到图像的生成（反事实的）

4. 缩放到三百分之一模型

训练三百分之一模型:

资源：480 NVIDIA V100-32GB gpu

实现：由带宽为100gb的RDMA网络连接的单gpu工人集群。

优化：Adafactor (vs. Adam)，为了避免训练的不稳定性，我们使用了较小的学习率和权值初始化

专家原型

辅助平衡损失是有帮助的吗？

辅助损失有助于平衡每个专家的分配，但对模型性能影响很大。为了节省向后内存成本，与Switch&Gshard相比，我们消除了辅助损失。

1t模型的有效性

与M6相关的Papers
M6-base, 10B & 100B: M6: A Chinese Multimodal Pretrainer (KDD 21’)

M6-1T: Exploring Sparse Expert Models and Beyond (arxiv)

Image generation: UFC-BERT: Unifying Multi-Modal Controls for Conditional Image Synthesis (arxiv)

M6-中文多模态预训练模型相关推荐

M6:中文多模态预训练模型
M6: A Chinese Multimodal Pretrainer 摘要我们构建了最大数据集的中文多模态预训练模型,包含多个领域的1.9T的图片和292G的文本.我们提出了一种称为M6(Mult ...
悟道·文澜：北京智源研究院、人大、中科院联手打造的超大规模多模态预训练模型！
导读近年来,BERT等预训练语言模型在多类自然语言处理任务上取得了显著的性能提升,从而极大地改写了研究范式.随着OpenAI超大规模语言模型GPT-3的发布,预训练语言模型在自然语言理解能力上再次被 ...
多模态预训练模型CLIP：中文版本开放使用
公众号原文(关注公众号,获取一手论文咨询): 多模态预训练模型CLIP:中文版本开放使用中文项目地址: https://github.com/real-brilliant/chinese_clip_ ...
金融领域首个开源中文BERT预训练模型，熵简科技推出FinBERT 1.0
出品 | AI科技大本营头图 | CSDN付费下载于东方IC 为了促进自然语言处理技术在金融科技领域的应用和发展,熵简科技 AI Lab 近期开源了基于 BERT 架构的金融领域预训练语言模型 Fi ...
刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型...
作者 | HFL 来源 | 哈工大讯飞联合实验室(ID:rgznai100) 为了进一步促进中文自然语言处理的研究发展,哈工大讯飞联合实验室发布基于全词覆盖(Whole Word Masking)的中 ...
直播回顾 | 最强中文NLP预训练模型艾尼ERNIE官方揭秘
允中发自凹非寺量子位编辑 | 公众号 QbitAI "最近刚好在用ERNIE写毕业论文" 看了上面热火的讨论,你一定很好奇"艾尼"."ERNI ...
独家揭秘！史上最强中文NLP预训练模型 | 直播报名中
编辑部发自凹非寺量子位报道 | 公众号 QbitAI 随着AI的快速发展,相信"深度学习"对大部分人来说已经不是一个陌生的概念了.通过深度学习,计算机能够在围棋.电子竞技 ...
从LXMERT到VLMO：多模态预训练模型的演变史
©作者 | 吉雅太单位 | 清华大学研究方向 | 多模态研究自从 2018 年 BERT 在 NLP 领域声名鹊起,通过预训练在 n 多 NLP 任务中刷榜,成功发掘出了 transformer ...
从多篇2021年顶会论文看多模态预训练模型最新研究进展
©PaperWeekly 原创 · 作者 | 小马单位 | FightingCV公众号运营者研究方向 | 计算机视觉背景 1.1.什么是预训练目前随着数据量爆炸式的增长,靠人工去标注更多数据是 ...
T5 PEGASUS：开源一个中文生成式预训练模型
©PaperWeekly 原创 · 作者|苏剑林单位|追一科技研究方向|NLP.神经网络去年在文章那个屠榜的T5模型,现在可以在中文上玩玩了中我们介绍了 Google 的多国语言版 T5 模型( ...

最新文章

热门文章