©作者 | 唐工

写在篇首

这些趋势之所以令人兴奋,是因为它们可以大大减少为某一特定任务使用机器学习所需的努力,也因为它们使得在更具代表性的数据上训练模型变得更加容易(尽管绝非微不足道),这些模型更好地反映了不同的亚种群、区域、语言或其他重要的表示维度。

现有的模型通常使用自监督(self-supervised)学习方法进行训练,其中模型从没有经过策划或标记的“原始”数据的观察中学习,例如 GPT-3 和 GLaM 中使用的语言模型、自监督语音模型 BigSSL 、可视对比学习模型 SimCLR,和多模态对比模型 VATT。

自监督学习允许一个大的语音识别模型(BigSSL 模型),只使用 3% 的标签训练数据,就能满足先前的 Voice Search 自动语音识别(automatic speech recognition,ASR)基准测试准确度。

GLaM 模型:更有效的上下文学习

GLaM(Generalist Language Model)模型,旨在解决训练大型稠密模型(比如GPT-3)需要大量的计算资源的问题。

大型语言模型(例如,GPT-3)具有许多重要的能力,例如在一系列广泛的任务中执行少样本学习(few-shot learning),包括只有很少或根本没有训练样本的阅读理解和问答。但训练这些大型模型是极其计算密集的。

GLaM 模型是一簇通用语言模型,由于其稀疏性(sparsity),可以(在计算和能耗方面)有效地进行训练和提供服务,并且在多个少样本学习任务上取得了更好的表现。

GLaM 模型使用稀疏激活的 MoE(sparsely activated mixture-of-experts)架构来扩展模型容量,同时与稠密的变体相比,训练成本大大减少

...It consumes only 1/3 of the energy used to train GPT-3 and requires half of the computation flops for inference... ...它只消耗 GPT-3训练所需能耗的1/3,并且只需要一半的浮点运算进行推理...

▲ GLaM 的架构,其中每个输入标记都被动态地路由到64个专家网络中的选定的两个,以进行预测

BigSSL 模型:探索用于自动语音识别的大规模半监督学习的前沿

BigSSL(Large-Scale Semi-Supervised Learning )模型,发现预训练(pre-training)、自训练(self-training)和扩大模型尺寸(scaling up model size)的组合极大地提高了数据效能,即使对于具有数万小时标记数据的超大型任务也是如此。

SSL + Large Models = Labeled Data Efficiency
半监督学习 + 大型模型 = 标记数据的效能

BigSSL 模型使用 Conformer (convolution-augmented transformer)模型作为其编码器网络,Conformer 模型将卷积神经网络和 Transformer 结合起来,以参数高效(parameter-efficient)的方式对音频序列的局部和全局依赖关系进行建模。

Transformer models are good at capturing content-based global interactions, while CNNs exploit local features effectively. Transformer 模型擅长捕获基于内容的全局交互,而 CNN 则有效地利用局部特征。

▲ Conformer 编码器和 wav2vec 2.0 预训练。Conformer Block 包含注意力、前馈和卷积模块。

SimCLR 模型:提高自监督和半监督学习

SimCLR 模型,旨在解决当前图像数据的自监督(self-supervised)技术没有被广泛采用的问题:

  • 当前的图像数据自监督技术过于复杂;

  • 需要对架构或训练过程进行重大修改。

提高计算机视觉任务的性能的范式:在大型的未标记图像数据集进行预训练,然后在一个较小的标记数据集微调。这些方法属于自监督学习的范畴,通过从未标记的数据集创建替代标签,将非监督式学习问题转化为受监督的问题。

SimCLR 模型首先通过对比学习(contrastive learning),同时最大化同一图像的不同变换视图之间的一致性和最小化不同图像变换视图之间的一致性,在未标记的数据集上学习图像的通用表示法;然后它可以用少量的标记图像进行微调,以对给定的分类任务达到良好的性能。

▲ SimCLR 框架的一个示例。和 MLP 图层同时训练产生的投影对于同一图像的增强版本是相似的,而对于不同的图像是不同的,即使这些图像是同一类的物体。经过训练的模型不仅能很好地识别同一图像的不同变换,而且还能学习类似概念的表示(例如,椅子和狗),这些概念后来可以通过微调与标签联系起来。

VATT 模型:从原始视频、音频和文本的多模态自监督学习 Transformer

VATT (Video-Audio-Text Transformer)模型,用于使用无卷积 Transformer 架构从未标记的数据中学习多模态表示。

VATT 模型使用多模态对比损失(contrastive loss)进行训练,并通过视频动作识别、音频事件分类、图像分类和文本到视频检索等下游任务来评估其性能。

▲ VATT 架构和自监督、多模式学习策略的概述。VATT 将每种模态线性投影到特征向量中,并将其输入到 Transformer 编码器中。定义了一个语义层次化的公共空间来解释不同模态的粒度,并使用噪声对比估计来训练模型。

参考文献

[2112.06905] GLaM: Efficient Scaling of Language Models with Mixture-of-Experts (arxiv.org):https://arxiv.org/abs/2112.06905

[2109.13226] BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition (arxiv.org):https://arxiv.org/abs/2109.13226

[2002.05709] A Simple Framework for Contrastive Learning of Visual Representations (arxiv.org):https://arxiv.org/abs/2002.05709

[2104.11178] VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text (arxiv.org):https://arxiv.org/abs/2104.11178

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

自监督学习的发展趋势:事半功倍的模型训练和数据效能相关推荐

  1. 模型训练:数据预处理和预载入

    相对于模型的训练而言,有时候数据的预处理和载入反而是一件更为耗时的工作. 为了优化模型的训练流程,有必要对训练的全流程做一个时间上的评测(Profiling),以弄清每一步所耗费的时间,并发现性能上的 ...

  2. 模型训练遇到数据量太大而导致内存不够问题?今天教你一招

    在比赛和工作中,我们经常会遇到数据量太大而导致内存不够的问题.这里可以细分为两种情况: 情况1:数据太大,无法加载到内存: 情况2:加载数据但训练时内存不够: 针对情况1可以考虑使用Spark或者Da ...

  3. 如何借助分布式存储 JuiceFS 加速 AI 模型训练

    传统的机器学习模型,数据集比较小,模型的算法也比较简单,使用单机存储,或者本地硬盘就足够了,像 JuiceFS 这样的分布式存储并不是必需品. 随着近几年深度学习的蓬勃发展,越来越多的团队开始遇到了单 ...

  4. 一文了解 AI 商品模型训练平台

    AI平台的初衷永远是提高开发效率,加快算法迭代周期.通过产品化AI技术,让运营人员能够更贴近技术,更好地指导赋能业务场景,给客户带来更好的技术体验和产品体验. 本文是2020年的正式第一文,介绍了人工 ...

  5. Foursquare: 如何构建我们的模型训练引擎(Model Training Engine)

    英文原文地址:How we built our Model Training Engine 翻译:大魁,时间短暂,翻译的比较粗糙 在Foursquare,我们面临大规模的机器学习任务.例如,要从低质量 ...

  6. keras_retinanet 目标检测——自定义图片数据集的模型训练步骤

    最近在学习 keras_retinanet ,下面就记录下用自己的数据集进行的模型训练. 大致分为以下几步: 自定义训练数据 图片目标标注 生成用于训练的图片名称.目标标注位置及目标类别的.csv文件 ...

  7. 复旦大学教授肖仰华:ChatGPT 浪潮下,面向大模型如何做数据治理?

    嘉宾 | 肖仰华 编辑  | 伍杏玲 出品 | CSDN 由 ChatGPT 引起的大模型热潮正席卷当下.众所周知,大模型的建立离不开海量数据,且大模型的最终效果取决于数据的质量,数据越丰富.质量越高 ...

  8. 高效又稳定的ChatGPT大模型训练技巧总结,让训练事半功倍!

    文|python 前言 近期,ChatGPT成为了全网热议的话题.ChatGPT是一种基于大规模语言模型技术(LLM, large language model)实现的人机对话工具.现在主流的大规模语 ...

  9. 腾讯优图吴永坚:迈向深度学习,我们面临模型训练与推荐的双重考验

    整理 | 琥珀 出品 | AI 科技大本营 对腾讯优图的发展历程,吴永坚表示,优图是非常幸运的,幸运的同时也知道优图选对了方向,只要坚持,还是会有收获的. 12 月 15 日,以"新趋势.新 ...

最新文章

  1. Intel汇编程序设计-高级过程(上)
  2. export_symbol的使用
  3. 面向对象编程(Object Oriented Programming)概念总结及延伸(一)
  4. 前端学习(508):水平和垂直居中第一种方式
  5. hubbledotnet mysql_HubbleDotNet 简介
  6. javascript常用技巧归纳
  7. Web Worker
  8. 《设计模式详解》结构型模式 - 外观模式
  9. cactiez的monitor主机名乱码
  10. SpringApplication run方法解析:SpringApplicationRunListeners(二)
  11. 服务器远程关机后开机开不了,远程开关机系统安全吗
  12. 搜狗输入法linux版 rpm,wps for linux 不能使用搜狗输入法
  13. XMLHTTP的ReadyState与Statu详解
  14. 怎么给图片添加贴纸?介绍几个简单的方法
  15. iOS性能优化-UI卡顿检测
  16. 关于SQL Server中将数值类型转换为字符串的问题
  17. PostgreSQL入门基本语法之DDL-(user、database、schema)
  18. 510758-19-7,5-FAM-Alkyne高选择性和灵敏的荧光生物标记物,可用于标记碱性磷酸酶 (ALP)
  19. CAM350导入rou文件
  20. 使用采集工具,轻松获取目标受众的数据,让您的市场营销更加精准

热门文章

  1. html的首选参数设置,设置 Animate 中的首选参数
  2. 前端面试题--重要基础知识回顾(一)
  3. iOS获取缓存文件的大小并清除缓存
  4. 判断一个字符串是否是由另2个字符串交错组成的
  5. 《大话移动 APP 测试》
  6. MSSSQL 脚本收藏
  7. 项目管理 管理的是什么?
  8. 【web】Good ad ~
  9. ARCHLinux SETUP WITH FDISK
  10. ASP.NET获取客户端、服务器端基础信息集合