《预训练周刊》第28期：M6-10T：高效多万亿参数预训练的共享去链接范式、大模型自然语言处理的最新进展综述

关于周刊
本期周刊，我们选择了11篇预训练相关的论文，涉及模型训练、图像编码、气候文本、对比学习、文本生成评估、小样本学习、决策推理、胚胎突变预测、蛋白质分析、数据集检测和模型可解释性的探索。此外，在研究动态方面，我们选择了1篇预训练资讯，将介绍大模型综述方面的一些最新内容。
（本期贡献者：申德周翟珂吴新刚）
文章来源：智源社区

论文推荐

标题：阿里｜M6-10T: A SHARING-DELINKING PARADIGM FOR EFFICIENT MULTI-TRILLION PARAMETER PRETRAINING(M6-10T：用于高效多万亿参数预训练的共享去链接范式)
作者：Junyang Lin, An Yang, Hongxia Yang
简介：本文介绍一种训练大模型的CPU内存并维护高GPU的方法。深度学习算法、分布式训练、甚至大型模型的硬件设计也使得训练超大规模模型比较困难，比如 GPT-3和Switch Transformer拥有数千亿或甚至数万亿个参数。然而，在资源有限的情况下，极端规模需要大量计算和内存占用的模型训练在模型收敛方面的效率低得令人沮丧。在本文中，作者为需要高内存占用的大型模型提出了一种称为“伪到实”的简单训练策略。“伪到实”兼容大模型具有顺序层的架构。作者展示了预训练的实践前所未有的 10 万亿参数模型，比10天内仅在512个GPU上实现了最先进的技术。除了演示“伪到实”的应用，作者还提供了一种技术，Granular CPU offloading，管理用于训练大型模型的 CPU 内存并维护高 GPU 实用程序。在相当数量的资源上，快速训练超大规模模型可以带来更小的碳足迹，并为更环保的人工智能做出贡献。
论文地址：https://www.aminer.cn/pub/6163ab265244ab9dcbf95e67?f=cs

标题：META｜Masked Autoencoders Are Scalable Vision Learners（屏蔽自编码器是可扩展的视觉学习器）
作者：Kaiming He, Xinlei Chen等
简介：本文介绍了掩码自编码器 (MAE) 用于计算机视觉的可扩展自监督学习。作者的MAE方法很简单：屏蔽了输入图像并重建丢失的像素。它基于两个核心设计，首先，作者开发一个不对称的编码解码器架构，具有仅对补丁的可见子集（没有掩码标记）进行操作的编码器，以及用于重建的轻量级解码器来自潜在表示和掩码的原始图像符号；其次，作者发现掩饰的比例很高输入图像，例如 75%，产生一个非平凡的和有意义的自我监督任务。结合这两种设计使作者能够高效地训练大型模型：作者加速训练（3 倍或更多）并提高准确性。作者的可扩展方法允许学习泛化能力强的高容量模型：例如，仅使用 ImageNet-1K数据的方法，ViT-Huge模型达到了最好的准确率（87.8%）。下游任务中的性能优于有监督的预训练，并显示出有希望的扩展行为。
论文地址：https://www.aminer.cn/pub/618ddb455244ab9dcbda8f5f?f=cs

标题：德国纽伦堡大学、苏黎世联邦理工学院、苏黎世大学瑞士分校 | ClimateBert: A Pretrained Language Model for Climate-Related Text（气候相关文本的预训练模型）
作者：Nicolas Webersinke, Mathias Kraus等
简介：本文在气候文本领域进行预训练研究实践。近年来，大型预训练语言模型 (LM) 彻底改变了自然语言处理 (NLP) 领域。然而，虽然通用语言的预训练已被证明对通用语言非常有效，但已经观察到小众语言会带来问题。特别是与气候相关的文本包含普通 LM 无法准确表示的特定语言。作者认为，当今 LM 的这一缺点限制了现代 NLP 对气候相关文本的广泛文本处理领域的适用性。作为补救措施，作者提出了 ClimateBert，这是一种基于转换器的语言模型，该模型对超过 160 万段与气候相关的文本进行了进一步的预训练。
论文地址：https://www.aminer.cn/pub/617771bc5244ab9dcbe793c8?f=cs

标题：亚马逊 | Contrastive Document Representation Learning with Graph Attention Networks（使用图注意力网络进行对比文档表示学习）
作者：Peng Xu, Xinchi Chen等
简介：本文研究预训练模型与图注意网络的融入结合。基于预训练Transformer的语言模型在学习文本的上下文表示方面取得了巨大的成功。然而，由于二次自我注意的复杂性，大多数预训练的Transformer模型只能处理相对较短的文本。在对很长的文档进行建模时，这仍然是一个挑战。在这项工作中，作者建议在可用的预训练Transformers模型上使用图注意网络来学习文档嵌入。这个图注意网络允许研究者利用文档的高级语义结构。此外，基于此图文档模型，作者设计了一个简单的对比学习策略，在大量未标记语料库上对本研究的模型进行预训练。实验证明了作者的方法在文档分类和文档检索任务中的有效性。
论文地址：https://www.aminer.cn/pub/61722bd75244ab9dcb6efb14?f=cs

标题：巴黎综合理工大学、Linagora | FrugalScore: Learning Cheaper, Lighter and Faster Evaluation Metrics for Automatic Text Generation（学习更便宜、更轻、更快的自动文本生成评估指标）
作者：Moussa Kamal Eddine, Guokan Shang等
简介：本文研究提出高效的自动文本生成评估指标。快速可靠的评估指标是研发进展的关键。虽然传统的自然语言生成指标很快，但它们并不是很可靠。相反，基于大型预训练语言模型的新指标更可靠，但需要大量计算资源。在本文中，作者提出了FrugalScore—是一种学习任何昂贵 NLG 指标的固定的、低成本版本的方法，同时还保留其大部分原始性能。在摘要和翻译方面、基于BERTScore和MoverScore的实验表明，FrugalScore与原始指标相当（有时甚至更好），同时参数少了几个数量级，运行速度提高了几倍。平均而言，在所有学习的指标、任务和变体中，FrugalScore保留了96.8%的性能，运行速度提高了24倍，并且参数比原始指标少 35 倍。
论文地址：https://www.aminer.cn/pub/616e37435244ab9dcbd1a7df?f=cs

标题：华盛顿大学、Facebook、艾伦AI研究所 | MetaICL: Learning to Learn In Context（学习在上下文情境中的学习）
作者：Sewon Min, Mike Lewis等
简介：本研究提出一种新的元训练框架、适用于小样本学习。本文中作者介绍了 MetaICL—上下文学习的元训练、一种用于小样本学习的新元训练框架，其中预训练的语言模型被调整为在大量训练任务上进行上下文学习。这种元训练使模型能够在测试时更有效地学习上下文中的新任务，只需根据几个训练示例进行调节，无需参数更新或特定于任务的模板。作者对由 142 个 NLP 数据集组成的大型多样化任务集合进行实验，包括分类、问答、自然语言推理、释义检测等，跨越七个不同的元训练/目标拆分。MetaICL 优于一系列基线，包括没有元训练的上下文学习和多任务学习，然后是零样本转移。实验发现，对于具有从元训练任务进行域转移的目标任务，收益尤其显着，并且使用不同的元训练任务集是改进的关键。本文还展示了 MetaICL 接近（有时甚至超过）在目标任务训练数据上完全微调的模型的性能，并且优于具有近 8 倍参数的更大模型。
论文地址：https://www.aminer.cn/pub/617f5aa45244ab9dcbaa726b?f=cs

标题：卡内基梅隆大学、埃森哲 | Cross-Domain Reasoning via Template Filling（通过模板填充进行跨域推理）
作者：Dheeraj Rajagopal，Vivek Khetan等
简介：本研究中作者探索了序列到序列模型的跨域推理能力。人类通常需要在不同的领域为一些日常决策进行推理。例如：绿叶蔬菜对有血凝块病史的人有益吗？回答该问题需要蔬菜的常识性理解、健康领域知识、以及推理能力。机器是否可以像人类如此地跨领域推理，仍然是一个开放的问题。作者正式将其定义为跨域推理任务—作为一个推理链跨越多个域。本研究中作者提出了一种提示模板填充方法，使序列到序列模型能够执行跨域推理。作者还提供了一个关于常识、健康和福祉领域的案例研究，作者在其中研究了提示模板填充如何使预训练序列能够跨域对模型进行排序。作者在多个预训练的编码器-解码器模型上的实验表明，跨域推理对当前模型具有挑战性。作者还展示了深入的错误分析和未来跨域推理研究的途径。
论文地址：https://www.aminer.cn/pub/6180ac445244ab9dcb793d13?f=cs

标题：中山大学 | A deep learning-based framework for estimating fine-scale germline mutation rates（用于精细估计生殖系突变率的深度学习框架）
作者：Yiyuan Fang, Shuyi Deng, Cai Li
简介：胚胎突变率对遗传和进化分析至关重要，然而由于观察到的突变相对较少，而且预测因子和突变率之间的关系错综复杂，估计整个基因组的精细尺度突变率是一个巨大的挑战。本文提出了MuRaL，即突变率学习器，一个基于深度学习预训练的框架，只使用基因组序列作为输入来预测精细尺度的突变率。作者利用人类种系突变体进行综合评估，表明MuRaL比目前最先进的方法实现了更好的预测性能。此外，MuRaL可以用相对较少的突变和中等数量的测序个体建立模型，利用迁移学习，以更少的训练数据和时间建立模型。本文应用MuRaL为四个物种–智人、猕猴、拟南芥和黑腹果蝇产生全基因组的突变率图谱，证明了该方法的高度适用性。
论文地址：https://www.aminer.cn/pub/61a4c5946750f8114fdaa1d1?f=cs

标题：宾州儿童医院、宾大 | MutFormer: A context-dependent transformer-based model to predict pathogenic missense mutations（MutFormer : 用于预测致病性错义突变的上下文依赖Transformer）
作者：Theodore Jiang, Li Fang, Kai Wang
简介：错义突变是一种点突变，导致蛋白质序列中的一个氨基酸被替换。目前，错义突变约占导致人类遗传性疾病的已知突变体的一半，但准确预测错义突变体的致病性仍然是一个挑战。深度学习的最新进展表明，Transformer模型在序列建模方面特别强大，本文开发并介绍了MutFormer，一个用于预测致病性错义变异的基于BERT的模型。作者对MutFormer进行了蛋白序列和由常见遗传变异导致的替代蛋白序列的预训练，可以直接分析蛋白质序列，不需要任何同源信息或额外数据。本文测试了不同的微调方法来预测致病性，MutFormer能够在SNPs的致病性预测方面与目前的方法相匹配或优于其表现。
论文地址：https://www.aminer.cn/pub/617b66755244ab9dcbb6a4ef?f=cs

标题：南洋理工、威斯康辛麦迪逊 | Generalized Out-of-Distribution Detection: A Survey（广义分布外检测综述）
作者：Jingkang Yang, Ziwei Liu 等
简介：分布外检测对于确保机器学习系统的可靠性和安全性至关重要。在这项综述中，作者首先提出了一个被称为广义分布外检测的通用框架，它包含了异常检测、新颖性检测、开放集识别、分布外检测和离群检测5个问题，这五个问题可以被看作比较容易区分的特例或子任务。通过总结这五个领域的最新技术发展，作者对它们进行了全面的回顾。尽管针对不同的问题环境，每个领域内开发的方法一般可以分为四组，基于密度的方法，基于重建的方法，基于分类的方法和基于距离的方法。另外，本文也展示了强大的预训练模型在各种任务和模式上取得的成果，证明了预训练Transformer可以显著改善一些特别困难的分布外任务。
论文地址：https://www.aminer.cn/pub/61722be25244ab9dcb6f0dbe?f=cs

标题：香侬科技、佐治亚理工、清华等 | Interpreting Deep Learning Models in Natural Language Processing: A Review（自然语言处理中的可解释模型：综述）
作者：Xiaofei Sun, Ziwei Liu 等
简介：可解释性的缺乏不仅降低了自然语言处理系统的可靠性，也限制了其在至关重要的领域的应用范围，例如医疗保健。在这项综述中，作者对与预训练有关的各种可解释方法进行了全面的回顾。本文首先对NLP中的可解释方法进行了高级分类，即基于训练的方法、基于测试的方法和混合方法。接下来，本文详细描述了每个类别中的子类别，例如，基于影响函数的方法、基于KNN的方法、基于注意力的模型、基于显著性的方法、基于扰动的方法等等。其中的关键是，在大规模无标签的一般文本上进行预训练，并在有标签的理性指导数据上进行微调，能够帮助模型产生更加连贯和人类可识别的解释。最后，本文指出了当前方法的不足之处，并提出了未来研究的一些途径。
论文地址：https://www.aminer.cn/pub/61722bd55244ab9dcb6ef863?f=cs

研究动态

标题：雷神,哈佛,宾大｜基于大型预训练语言模型自然语言处理的最新进展综述
作者：Bonan Min, Hayley Ross, Elior Sulem等
简介：本文介绍了大模型的最新进展。BERT等大型、预训练的基于变换器的语言模型已经彻底改变了自然语言处理领域。作者对最近的工作进行了综述，收集了使用大型语言模型通过预训练然后微调、提示或文本生成方法来解决NLP任务的工作。作者还介绍了使用预训练语言模型生成用于训练增强或其他目的的数据的方法，最后讨论了局限性和未来研究的建议方向。
论文地址：https://www.aminer.cn/pub/6181fdcc5244ab9dcb7a6715?f=cs

《预训练周刊》第28期：M6-10T：高效多万亿参数预训练的共享去链接范式、大模型自然语言处理的最新进展综述相关推荐

《预训练周刊》第28期：M6-10T：高效多万亿参数预训练的共享去链接范式、大模型自然语言处理的最新进展综述...
No.28 智源社区预训练组预训练研究观点资源活动关于周刊本期周刊,我们选择了11篇预训练相关的论文,涉及模型训练.图像编码.气候文本.对比学习.文本生成评估.小样本学习.决策推理 ...
解密万亿参数M6模型预训练背后的分布式框架Whale
简介: 最近,阿里云PAI团队和达摩院智能计算实验室一起发布"低碳版"巨模型M6,大幅降低万亿参数超大模型训练能耗.借助我们自研的Whale框架仅使用480卡GPU,即训练出了规模 ...
《智源社区周刊：预训练模型》第1期：吴恩达团队医疗影像预训练、快手落地万亿参数模型...
超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了<智源社区周刊:预训练模型>,从研究动态.行业资讯.热点讨论等几个维度推荐最近 ...
【码云周刊第 28 期】计算机视觉时代的识图技术
为什么80%的码农都做不了架构师?>>> Venture Scanner 追踪了全球957家人工智能公司,总融资额为48亿美金.其中,机器学习.自然语言处理.计算机视觉等认知技 ...
《AI系统周刊》第5期：Cerebras发布可运行120万亿参数AI模型的CS-2芯片
No.05 智源社区 AI系统组 A I 系统研究观点资源活动关于周刊 AI系统是当前人工智能领域极具现实意义与前瞻性的研究热点之一,为了帮助研究与工程人员了解这一领域的进展和资讯,我们 ...
1.75万亿参数、在国产超算上训练，刚刚智源发布了全球最大预训练模型“悟道2.0”...
边策梦晨发自凹非寺量子位报道 | 公众号 QbitAI 中国的AI内行顶级盛会--2021北京智源大会又来了. 每年的智源大会参会阵容都非常豪华,今年也不例外,包括Yoshua Bengio ...
仅用 480 块 GPU 跑出万亿参数！全球首个“低碳版”巨模型 M6 来了
继今年 3 月阿里达摩院发布国内首个千亿参数多模态大模型 M6(MultiModality-to-MultiModality MultitaskMega-transformer,以下简称 M6) 之后 ...
商汤首付56亿！上海建成亚洲最大AI“发电厂”，万亿参数大模型训练无压力
梦晨萧箫发自凹非寺量子位 | 公众号 QbitAI 刚刚,商汤又多了一项"亚洲第一". 就在上海临港,商汤自建的人工智能计算中心(AIDC)交付使用,一举成为亚洲最大的AI ...
1.75万亿参数，刚刚智源发布了全球最大预训练模型“悟道2.0”
中国的AI内行顶级盛会--2021北京智源大会又来了. 每年的智源大会参会阵容都非常豪华,今年也不例外,包括Yoshua Bengio.David Patterson两位图灵奖得主在内的200多位学者 ...
谈谈NLP下一个主战场：万亿参数的预训练模型！
自从BERT诞生以来,各大互联网巨头之间就展开了预训练语言模型军备竞赛,XLNet.ERNIE.RoBERTa.T5.GPT-3.... 但当事情进展到号称自己是zero-shot learner的G ...

《预训练周刊》第28期：M6-10T：高效多万亿参数预训练的共享去链接范式、大模型自然语言处理的最新进展综述

《预训练周刊》第28期：M6-10T：高效多万亿参数预训练的共享去链接范式、大模型自然语言处理的最新进展综述相关推荐

最新文章

热门文章