Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey

大规模数据集上的预训练模型可以加快训练过程，并提高相对较小数据集上的性能。

为了减轻大规模数据集标注的负担，通常设计一个前置任务供网络求解，而前置任务的伪标签是基于数据属性自动生成的。

根据用于设计借口任务的数据属性，如图 10 所示，我们将前置任务总结为四类：基于生成、基于上下文、基于自由语义标签和基于跨模态。

基于生成的自监督学习的伪标签一般是图像自身。

拼图任务：为了限制排列的数量，通常使用汉明距离从所有排列中选择一个具有相对较大汉明距离的子集。只有选定的排列用于训练

基于自由语义标签：①游戏引擎生成标签。由于游戏引擎可以以可忽略不计的成本生成大规模数据集，因此各种游戏引擎(如Airsim [142]和Carla [143])已被用于生成具有高级语义标签的大规模合成数据集。然而，由于合成图像和真实世界图像之间的域差距，纯粹在合成图像上训练的ConvNet不能直接应用于真实世界图像。为了利用合成数据集进行自我监督的特征学习，需要明确弥补领域差距。

②硬编码生成标签。这类方法的总体思想都是从硬代码检测器中提取知识。硬编码检测器可以是边缘检测器、显著检测器、相对检测器等。只要在检测器的设计中不涉及人类注释，那么检测器就可以用来生成用于自我监督训练的标签。

视频特征：①基于生成：视频预测：由于对视频中的长期动态建模的强大能力，LSTM被用于编码器和解码器中[37]。大多数框架遵循编码器-解码器流水线，其中编码器根据给定的视频剪辑对空间和时间特征进行建模，解码器根据编码器提取的特征生成未来的帧。

②基于上下文：然而，这些方法通常需要大量的数据集准备步骤。用于训练网络的帧序列是基于光流的大小来选择的，并且光流的计算过程昂贵且缓慢。因此，自监督视频特征学习需要更直接和更省时的方法。

③基于跨模态：基于RGB-光流：光流编码相邻帧之间的对象运动，而RGB帧包含外观信息。与特定于模态的信息相比，跨不同模态的交互信息通常具有更高的语义含义。

基于自我运动：自动驾驶汽车通常配备各种传感器，在街道上驾驶汽车可以很容易地以很低的成本采集大规模的自我中心视频和自我运动信号。自动驾驶汽车可以被视为在场景中移动的摄像机，因此摄像机捕捉的视觉数据的自我运动与汽车的相同。

性能表现：:(1)不同层次的特征总是受益于自我监督的前置任务训练。自我监督学习方法的性能总是优于从零开始训练的模型的性能。(2)所有自监督方法对conv3和conv4层的特性表现良好，而对conv1、conv2和conv5层的特性表现较差。这可能是因为浅层捕获一般的低级特征，而深层捕获前置任务相关的特征。(3)当用于前置任务训练的数据集和下游任务的数据集之间存在领域差距时，自监督学习方法能够达到与用ImageNet标签训练的模型相当的性能。

如表5所示，自监督模型在分割和检测数据集上的性能非常接近于在预训练期间用ImageNet标签训练的监督方法的性能。具体而言，在对象检测和语义分割任务上的性能差异幅度小于3%，这表明通过自监督学习学习的特征具有良好的泛化能力。在所有的自我监督学习方法中，深度聚类[44]在所有任务上都获得了最好的性能。

性能:对于图像特征自监督学习，由于精心设计的前置任务，自监督方法的性能在一些下游任务上与监督方法相当，特别是对于目标检测和语义分割任务。在目标检测和语义分割任务上的性能差异小于3%,这表明通过自监督学习得到的特征具有良好的泛化能力。

视频特征自监督学习方法的性能仍然远远低于下游任务的监督模型的性能。基于3DConvNetbased的方法在UCF101数据集上的最佳性能比监督模型低18%以上[70]。3DConvNets自监督学习方法的较差性能可能是因为3DConvNets通常具有更多的参数，这导致容易过拟合以及由于视频的时间维度而导致的视频特征学习的复杂性。

当前的解决方案是使用下游任务的性能来指示特性的质量。然而，这种评估标准并不能洞察网络通过自我监督的预训练学到了什么。

game engines：如何弥补领域鸿沟 bridge the domain gap

web data：如何处理数据及其相关的元数据的噪声

Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey相关推荐

[译]深度神经网络的多任务学习概览(An Overview of Multi-task Learning in Deep Neural Networks)...
译自:http://sebastianruder.com/multi-task/ 1. 前言在机器学习中,我们通常关心优化某一特定指标,不管这个指标是一个标准值,还是企业KPI.为了达到这个目标,我 ...
【深度学习】多任务学习概览(An Overview of Multi-task Learning in Deep Neural Networks)
1. 前言在机器学习中,我们通常关心优化某一特定指标,不管这个指标是一个标准值,还是企业KPI.为了达到这个目标,我们训练单一模型或多个模型集合来完成指定得任务.然后,我们通过精细调参,来改进模型直 ...
综述翻译：多任务学习-An Overview of Multi-Task Learning in Deep Neural Networks
An Overview of Multi-Task Learning in Deep Neural Networks 文章目录 An Overview of Multi-Task Learning i ...
论文阅读 (69)：Collaborative Learning for Deep Neural Networks
文章目录 1 引入 1.1 题目 1.2 摘要 1.3 Bib 2 协作学习 2.1 训练图的生成 2.2 学习目标 2.3 一组分类器头的优化 2.3.1 同步SGD 2.3.2 反向传播重缩放 2 ...
【论文阅读｜深读】ANRL: Attributed Network Representation Learning via Deep Neural Networks
目录前言简介 Abstract 1 Introduction 2 Related Work 3 Proposed Model 3.1 Notations and Problem Formulati ...
[论文阅读笔记58]Learning from Noisy Labels with Deep Neural Networks：A Survey
1.题目 Learning from Noisy Labels with Deep Neural Networks: A Survey 作者团队:韩国科学技术院(KAIST) Song H , Kim ...
Simultaneous Feature Learning and Hash Coding with Deep Neural Networks
Simultaneous Feature Learning and Hash Coding with Deep Neural Networks 论文下载地址自从2014年中山大学潘炎老师讲deep ...
目标跟踪算法五：MDNet: Learning Multi-Domain Convolutional Neural Networks for Visual Tracking
目标跟踪算法五:MDNet: Learning Multi-Domain Convolutional Neural Networks for Visual Tracking 原文:https://zh ...
无监督特征学习——Unsupervised feature learning and deep learning
无监督学习近年来很热,先后应用于computer vision, audio classification和 NLP等问题,通过机器进行无监督学习feature得到的结果,其accuracy大多明显优 ...

Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey

Self-Supervised Visual Feature Learning With Deep Neural Networks: A Survey相关推荐

最新文章

热门文章