自监督学习的发展趋势：事半功倍的模型训练和数据效能

©作者 | 唐工

写在篇首

这些趋势之所以令人兴奋，是因为它们可以大大减少为某一特定任务使用机器学习所需的努力，也因为它们使得在更具代表性的数据上训练模型变得更加容易（尽管绝非微不足道），这些模型更好地反映了不同的亚种群、区域、语言或其他重要的表示维度。

现有的模型通常使用自监督（self-supervised）学习方法进行训练，其中模型从没有经过策划或标记的“原始”数据的观察中学习，例如 GPT-3 和 GLaM 中使用的语言模型、自监督语音模型 BigSSL 、可视对比学习模型 SimCLR，和多模态对比模型 VATT。

自监督学习允许一个大的语音识别模型（BigSSL 模型），只使用 3% 的标签训练数据，就能满足先前的 Voice Search 自动语音识别（automatic speech recognition，ASR）基准测试准确度。

GLaM 模型：更有效的上下文学习

GLaM（Generalist Language Model）模型，旨在解决训练大型稠密模型（比如GPT-3）需要大量的计算资源的问题。

大型语言模型（例如，GPT-3）具有许多重要的能力，例如在一系列广泛的任务中执行少样本学习（few-shot learning），包括只有很少或根本没有训练样本的阅读理解和问答。但训练这些大型模型是极其计算密集的。

GLaM 模型是一簇通用语言模型，由于其稀疏性（sparsity），可以（在计算和能耗方面）有效地进行训练和提供服务，并且在多个少样本学习任务上取得了更好的表现。

GLaM 模型使用稀疏激活的 MoE（sparsely activated mixture-of-experts）架构来扩展模型容量，同时与稠密的变体相比，训练成本大大减少。

...It consumes only 1/3 of the energy used to train GPT-3 and requires half of the computation flops for inference... ...它只消耗 GPT-3训练所需能耗的1/3，并且只需要一半的浮点运算进行推理...

▲ GLaM 的架构，其中每个输入标记都被动态地路由到64个专家网络中的选定的两个，以进行预测

BigSSL 模型：探索用于自动语音识别的大规模半监督学习的前沿

BigSSL（Large-Scale Semi-Supervised Learning ）模型，发现预训练（pre-training）、自训练（self-training）和扩大模型尺寸（scaling up model size）的组合极大地提高了数据效能，即使对于具有数万小时标记数据的超大型任务也是如此。

SSL + Large Models = Labeled Data Efficiency
半监督学习 + 大型模型 = 标记数据的效能

BigSSL 模型使用 Conformer （convolution-augmented transformer）模型作为其编码器网络，Conformer 模型将卷积神经网络和 Transformer 结合起来，以参数高效（parameter-efficient）的方式对音频序列的局部和全局依赖关系进行建模。

Transformer models are good at capturing content-based global interactions, while CNNs exploit local features effectively. Transformer 模型擅长捕获基于内容的全局交互，而 CNN 则有效地利用局部特征。

▲ Conformer 编码器和 wav2vec 2.0 预训练。Conformer Block 包含注意力、前馈和卷积模块。

SimCLR 模型：提高自监督和半监督学习

SimCLR 模型，旨在解决当前图像数据的自监督（self-supervised）技术没有被广泛采用的问题：

当前的图像数据自监督技术过于复杂；
需要对架构或训练过程进行重大修改。

提高计算机视觉任务的性能的范式：在大型的未标记图像数据集进行预训练，然后在一个较小的标记数据集微调。这些方法属于自监督学习的范畴，通过从未标记的数据集创建替代标签，将非监督式学习问题转化为受监督的问题。

SimCLR 模型首先通过对比学习（contrastive learning），同时最大化同一图像的不同变换视图之间的一致性和最小化不同图像变换视图之间的一致性，在未标记的数据集上学习图像的通用表示法；然后它可以用少量的标记图像进行微调，以对给定的分类任务达到良好的性能。

▲ SimCLR 框架的一个示例。和 MLP 图层同时训练产生的投影对于同一图像的增强版本是相似的，而对于不同的图像是不同的，即使这些图像是同一类的物体。经过训练的模型不仅能很好地识别同一图像的不同变换，而且还能学习类似概念的表示（例如，椅子和狗），这些概念后来可以通过微调与标签联系起来。

VATT 模型：从原始视频、音频和文本的多模态自监督学习 Transformer

VATT （Video-Audio-Text Transformer）模型，用于使用无卷积 Transformer 架构从未标记的数据中学习多模态表示。

VATT 模型使用多模态对比损失（contrastive loss）进行训练，并通过视频动作识别、音频事件分类、图像分类和文本到视频检索等下游任务来评估其性能。

▲ VATT 架构和自监督、多模式学习策略的概述。VATT 将每种模态线性投影到特征向量中，并将其输入到 Transformer 编码器中。定义了一个语义层次化的公共空间来解释不同模态的粒度，并使用噪声对比估计来训练模型。

参考文献

[2112.06905] GLaM: Efficient Scaling of Language Models with Mixture-of-Experts (arxiv.org):https://arxiv.org/abs/2112.06905

[2109.13226] BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition (arxiv.org):https://arxiv.org/abs/2109.13226

[2002.05709] A Simple Framework for Contrastive Learning of Visual Representations (arxiv.org):https://arxiv.org/abs/2002.05709

[2104.11178] VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text (arxiv.org):https://arxiv.org/abs/2104.11178

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。