文献阅读(59)CVPR2021-Swin Transformer-Hierarchical Vision Transformer using Shifted Windows
本文是对《Swin Transformer-Hierarchical Vision Transformer using Shifted Windows》一文的浅显翻译与理解,如有侵权即刻删除。
更多相关文章,请移步:
文献阅读总结:计算机视觉
文章目录
- Title
- 总结
- 1 整体框架
- 2 移动窗口
Title
《Swin Transformer-Hierarchical Vision Transformer using Shifted Windows》
——CVPR2021
Author: 刘泽
总结
该文是CVPR的best paper,作者胡瀚对其进行了介绍:https://www.bilibili.com/video/BV1eb4y1k7fj?from=search&seid=4785679647044800045&spm_id_from=333.337.0.0
Transformer在NLP领域的成果吸引了CV领域研究者的注意,期待为NLP和CV建立一个通用的模型架构。本文提出了Swin Transformer算法,将transformer结构引入到了CV领域中,并加入了先验知识如层次性hierarchy、局部性locality和平移不变性translational invariance等。此外,还构造了移动窗口shifted window来代替常用的滑动窗口,相比使用卷积架构的方法,效果更佳。
1 整体框架
文章将transformer结构代替了传统的卷积网络结构,将给定的图像切分为多个区块,在每个区块patch中使用self-attention方法提取特征。具体而言,每个区块会被初始化为44的大小,每个像素点有用RGB值进行表示,因此每个区块的大小为443,这些区块可以用经典方法表示成为维度大小为C的向量。而后,通过叠加多层Swin Transformer blocks,来不断压缩和提取信息。每次将22范围的区块信息压缩成一个区块,同时生成2C长度的向量。其结构如下所示:
右图是对单层transformer结构模型的拆解,W-MSA即基于window的multi-head self attention,其公式如下所示:
2 移动窗口
注意到,文章对每个区块进行了自注意力的信息提取,但没有考虑多个区块间的联系。因此,文章提出了移动窗口shifted window来替换传统的滑动窗口sliding window,建模区块与区块间的联系。滑动窗口往往按照规定的步长在数据间进行滑动提取信息,但这样的方法往往计算较为复杂。进而,文章通过利用图像不断循环滑动,来实现了窗口的移动。
如图所示,上图最左侧区块大小不同的切分图,正是由第二个图的变换得到的,将右下方ABC三部分提取出来,拼接到左上方,就得到了最左侧的切分图,其实际效果如下:
此外,文章还提出了模型的多个变体,在此不再赘述。
文献阅读(59)CVPR2021-Swin Transformer-Hierarchical Vision Transformer using Shifted Windows相关推荐
- 【文献阅读】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
题目:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 时间:2021 会议/期刊:ICCV 2021 研 ...
- 论文阅读笔记:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
论文阅读笔记:Swin Transformer 摘要 1 简介 2 相关工作 3 方法论 3.1 总览 Swin Transformer block 3.2 shifted window-based ...
- Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文阅读
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文阅读 摘要 介绍 相关工作 方法 整个架构 基于sel ...
- 【Transformer 论文精读】……Swin Transformer……(Hierarchical Vision Transformer using Shifted Windows)
文章目录 一.Abstract(摘要) 二.Introduction(引言) 三.Related Work(相关工作) 四.Method(方法) 1.Patch Merging模块 2.W-MSA模块 ...
- 【读点论文】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows通过窗口化进行局部MSA,sw-MSA融合信息
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows abstract 本文提出了一种新的视觉transfor ...
- Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
目录 Introduction Method Hierarchical feature maps and Linear computational complexity Patch merging S ...
- 【Swin Transformer】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
文章:https://arxiv.org/abs/2103.14030 代码:GitHub - microsoft/Swin-Transformer: This is an official impl ...
- 13、Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
简介 主页:https://github. com/microsoft/Swin-Transformer. Swin Transformer 是 2021 ICCV最佳论文,屠榜了各大CV任务,性能优 ...
- Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 论文翻译 + 网络详解
目录 1 3 4 5 是论文的翻译,如果看过论文也可以直接看关于网络的结构详解. Abstract 1. Introduction 3. Method 3.1 Overall Architicture ...
- Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 阅读理解
原文地址:https://arxiv.org/pdf/2103.14030.pdf 收录:CVPR 2021 Best paper 代码: https://github.com/microsoft/S ...
最新文章
- mutations vuex 调用_Vuex源码学习(六)action和mutation如何被调用的(前置准备篇)...
- C++ Primer 5th笔记(chap 14 重载运算和类型转换)二义性类型转换
- option:contains后面加变量_什么是配置环境变量,配置以后有什么作用呢?
- VMware View 与 Citrix Xendesktop 管理大比拼
- IAR新建stm32工程,完美移植stm32标准库(附源码)
- ubuntu常见问题:could not get lock /var/lib/dpkg/lock -open
- 静态内部类 java 1614958017
- 传统emmc所用的sdio接口_SolidGear SD/SDIO/eMMC协议分析仪
- Vue2 使用Volar 报错:<template v-for> key should be placed on the <template> tag
- 【经验】深度学习如何挑选GPU?
- 文件被误删不需要绝望,EasyRecovery送你时光机
- Nginx 轻松搞定跨域问题!
- JAVA 基础语法(一)——变量以及基本数据类型
- 软件工程学习笔记(八)~习题:建立等价类表
- 网络编程:Socket编程从IPv4转向IPv6支持
- 十大城市11月房价止跌回升 上海涨幅最高
- BAT批处理判断是否是文件夹,是则遍历
- it方面的证书 计算机软件,计算机及IT技术认证类型
- css滚动条-webkit-scrollbar
- k8s启动centos7的yaml文件_K8S yaml文件详解