CVPR 2021 An Empirical Study of Training Self-Supervised Visual Transformers
动机
transformer是一种有效的工具。
transformer最初是为机器翻译而引入的,后来成为NLP的主干。由于语言的非局部性、关系自然性,这种长时的、自注意力的行为使transformer成为一种有效的工具。
最近关于视觉transformer(ViT)的工作极大地推动了这一前沿。
ViT纯粹是基于transformer的,而不是与非退化(即non-1×1)的卷积交织在一起的。本论文认为简单地比较自注意力和“卷积”是不精确的。根据定义,卷积有几个性质:权重共享,局部连接,平移同变性。自注意力块中全部投影层具有卷积的所有这些性质,并且等价于1×1卷积。自注意力的对应物是更恰当的非退化(例如3×3)卷积。这在很大程度上弥补了NLP和Vision之间的架构差距。ViT在高级学习中,特别是在大规模数据和高容量模型中,具有惊人的精确度。鉴于这些特性,本论文认为ViT是计算机视觉下自监督学习的一个必须研究的基线。
ViT模型是新的,它们的核心方法还有待更新。
与标准卷积网络不同的是,由于各学者的持续的研究,卷积网络的训练实践已经得到了广泛的研究,ViT模型是新的,它们的核心方法还有待更新。在这项工作中,本论文回到基础并研究训练深度神经网络的基本组成部分:批量大小、学习速率和优化器。
在各种情况下,不稳定性是影响自监督ViT训练的一个主要问题。
不稳定的ViT训练可能不会导致灾难性的失败(例如,发散);相反,它会导致精度轻度下降(例如1%-3%)。这种退化程度可能不会太明显,除非有更稳定的对应物
CVPR 2021 An Empirical Study of Training Self-Supervised Visual Transformers相关推荐
- CVPR 2021 | 如何让GAN的训练更加高效优雅
导读 近年来,生成对抗技术在诸多图像任务中得到运用,包括图像编辑和生成.风格迁移和转化.图文描述生成.少样本数据增强.图像攻防对抗以及 AI 字体设计等.图像生成对抗虽然取得不少成功运用案例,但其训练 ...
- CVPR 2021 | 何恺明等人新作!深入探究无监督时空表征学习
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:Smarter 先看一下阵容,何恺明+Ross Girshick!!! 目前该工作已收录于CVP ...
- CVPR 2021 论文和开源项目合集(Papers with Code)
摘自:https://github.com/amusi/CVPR2021-Papers-with-Code CVPR 2021 论文和开源项目合集 CVPR 2021 论文和开源项目合集(Papers ...
- 可逆网络风格迁移-解决内容泄漏问题 [CVPR 2021] ArtFlow: Unbiased Image Style Transfer via Reversible Neural Flows
[CVPR 2021] ArtFlow: Unbiased Image Style Transfer via Reversible Neural Flows Jie An1∗ Siyu Huang ...
- 繁凡的对抗攻击论文精读(二)CVPR 2021 元学习训练模拟器进行超高效黑盒攻击(清华)
点我轻松弄懂深度学习所有基础和各大主流研究方向入门综述! <繁凡的深度学习笔记>,包含深度学习基础和 TensorFlow2.0,PyTorch 详解,以及 CNN,RNN,GNN,AE, ...
- CVPR 2021 | MI-AOD: 少量样本实现高检测性能
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨敛渔杭柠@知乎(已授权) 来源丨 ...
- 二值网络训练--A Empirical Study of Binary Neural Networks' Optimisation
A Empirical Study of Binary Neural Networks' Optimisation ICLR2019 https://github.com/mi-lad/studyin ...
- 任何网络都能山寨!新型黑盒对抗攻击可模拟未知网络进行攻击 | CVPR 2021
来源:AI科技评论本文约3500字,建议阅读9分钟本文解读对抗攻击与元学习联姻的两篇典型的论文. 最近几年,元学习风生水起,这阵风也刮到了对抗攻击领域.本文解读对抗攻击与元学习联姻的两篇典型的论文(本 ...
- CVPR 2021 | 利用时序差分进行动作识别的最新Backbone—TDN
©作者|童湛 学校|南京大学硕士生 研究方向|视频理解 转自:PaperWeekly 本文将介绍我们组 NJU-MCG 在行为识别(Action Recognition)领域被 CVPR 2021 接 ...
最新文章
- 2018-4-8模拟退火算法
- 通过计算机管理-共享文件夹,通过“计算机管理”管理工具(MMC)管理本机共享资源...
- 图文方式管理Linux服务器(Webmin)
- 推荐算法--推荐系统冷启动问题(03)
- a==b和a.equals(b)的区别
- 新版WebStorm安装详细流程
- 《Reids 设计与实现》第六章 数据库
- 结合内存分析java归并排序_排序算法之归并排序(Mergesort)解析
- 领导秘书,一般都是什么样的人?
- C++ gdb core调试 崩溃日志 都是问号??
- XP pro下安装Windows XP Tablet PC 2005组件教程
- 设置gmail邮箱代收的方法
- 下列不属于java语言特点的是_下列选项中,不属于Java语言特点的一项是( )。...
- RT-thread 环境下使用 HASH hwcrypto 配置使用底层硬件HAH库问题记录
- AEC 声学回声消除
- HTML_body中常用的标签部分
- 高斯法计算矩阵的行列式
- linux下C++编程学习
- CodeForces - 1324D Pair of Topics(二分或双指针)
- 蓝色主机 bluehost主机 启用CloudFlare的cdn加速服务