本文是对《Swin Transformer-Hierarchical Vision Transformer using Shifted Windows》一文的浅显翻译与理解,如有侵权即刻删除。

更多相关文章,请移步:
文献阅读总结:计算机视觉

文章目录

  • Title
  • 总结
    • 1 整体框架
    • 2 移动窗口

Title

《Swin Transformer-Hierarchical Vision Transformer using Shifted Windows》

——CVPR2021

Author: 刘泽

总结

该文是CVPR的best paper,作者胡瀚对其进行了介绍:https://www.bilibili.com/video/BV1eb4y1k7fj?from=search&seid=4785679647044800045&spm_id_from=333.337.0.0

Transformer在NLP领域的成果吸引了CV领域研究者的注意,期待为NLP和CV建立一个通用的模型架构。本文提出了Swin Transformer算法,将transformer结构引入到了CV领域中,并加入了先验知识如层次性hierarchy、局部性locality和平移不变性translational invariance等。此外,还构造了移动窗口shifted window来代替常用的滑动窗口,相比使用卷积架构的方法,效果更佳。

1 整体框架

文章将transformer结构代替了传统的卷积网络结构,将给定的图像切分为多个区块,在每个区块patch中使用self-attention方法提取特征。具体而言,每个区块会被初始化为44的大小,每个像素点有用RGB值进行表示,因此每个区块的大小为443,这些区块可以用经典方法表示成为维度大小为C的向量。而后,通过叠加多层Swin Transformer blocks,来不断压缩和提取信息。每次将22范围的区块信息压缩成一个区块,同时生成2C长度的向量。其结构如下所示:

右图是对单层transformer结构模型的拆解,W-MSA即基于window的multi-head self attention,其公式如下所示:

2 移动窗口

注意到,文章对每个区块进行了自注意力的信息提取,但没有考虑多个区块间的联系。因此,文章提出了移动窗口shifted window来替换传统的滑动窗口sliding window,建模区块与区块间的联系。滑动窗口往往按照规定的步长在数据间进行滑动提取信息,但这样的方法往往计算较为复杂。进而,文章通过利用图像不断循环滑动,来实现了窗口的移动。

如图所示,上图最左侧区块大小不同的切分图,正是由第二个图的变换得到的,将右下方ABC三部分提取出来,拼接到左上方,就得到了最左侧的切分图,其实际效果如下:

此外,文章还提出了模型的多个变体,在此不再赘述。

文献阅读(59)CVPR2021-Swin Transformer-Hierarchical Vision Transformer using Shifted Windows相关推荐

  1. 【文献阅读】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    题目:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 时间:2021 会议/期刊:ICCV 2021 研 ...

  2. 论文阅读笔记:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    论文阅读笔记:Swin Transformer 摘要 1 简介 2 相关工作 3 方法论 3.1 总览 Swin Transformer block 3.2 shifted window-based ...

  3. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文阅读

    Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文阅读 摘要 介绍 相关工作 方法 整个架构 基于sel ...

  4. 【Transformer 论文精读】……Swin Transformer……(Hierarchical Vision Transformer using Shifted Windows)

    文章目录 一.Abstract(摘要) 二.Introduction(引言) 三.Related Work(相关工作) 四.Method(方法) 1.Patch Merging模块 2.W-MSA模块 ...

  5. 【读点论文】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows通过窗口化进行局部MSA,sw-MSA融合信息

    Swin Transformer: Hierarchical Vision Transformer using Shifted Windows abstract 本文提出了一种新的视觉transfor ...

  6. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    目录 Introduction Method Hierarchical feature maps and Linear computational complexity Patch merging S ...

  7. 【Swin Transformer】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    文章:https://arxiv.org/abs/2103.14030 代码:GitHub - microsoft/Swin-Transformer: This is an official impl ...

  8. 13、Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    简介 主页:https://github. com/microsoft/Swin-Transformer. Swin Transformer 是 2021 ICCV最佳论文,屠榜了各大CV任务,性能优 ...

  9. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 论文翻译 + 网络详解

    目录 1 3 4 5 是论文的翻译,如果看过论文也可以直接看关于网络的结构详解. Abstract 1. Introduction 3. Method 3.1 Overall Architicture ...

  10. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 阅读理解

    原文地址:https://arxiv.org/pdf/2103.14030.pdf 收录:CVPR 2021 Best paper 代码: https://github.com/microsoft/S ...

最新文章

  1. mutations vuex 调用_Vuex源码学习(六)action和mutation如何被调用的(前置准备篇)...
  2. C++ Primer 5th笔记(chap 14 重载运算和类型转换)二义性类型转换
  3. option:contains后面加变量_什么是配置环境变量,配置以后有什么作用呢?
  4. VMware View 与 Citrix Xendesktop 管理大比拼
  5. IAR新建stm32工程,完美移植stm32标准库(附源码)
  6. ubuntu常见问题:could not get lock /var/lib/dpkg/lock -open
  7. 静态内部类 java 1614958017
  8. 传统emmc所用的sdio接口_SolidGear SD/SDIO/eMMC协议分析仪
  9. Vue2 使用Volar 报错:<template v-for> key should be placed on the <template> tag
  10. 【经验】深度学习如何挑选GPU?
  11. 文件被误删不需要绝望,EasyRecovery送你时光机
  12. Nginx 轻松搞定跨域问题!
  13. JAVA 基础语法(一)——变量以及基本数据类型
  14. 软件工程学习笔记(八)~习题:建立等价类表
  15. 网络编程:Socket编程从IPv4转向IPv6支持
  16. 十大城市11月房价止跌回升 上海涨幅最高
  17. BAT批处理判断是否是文件夹,是则遍历
  18. it方面的证书 计算机软件,计算机及IT技术认证类型
  19. css滚动条-webkit-scrollbar
  20. k8s启动centos7的yaml文件_K8S yaml文件详解

热门文章

  1. 2E服务-WriteDataByIdentifier
  2. word 支持html代码,Word怎么支持html代码
  3. YDOOK:ESP8266EX 四大工作模式与耗能 低耗能分析
  4. java水果超市课程设计_【笔记】学习java第十三天,水果超市
  5. BD第8课:胸罩颜色和上胸围销售比例和分布
  6. qt 指示灯 状态灯 红绿灯 LED灯:使用QLabel实现
  7. 中央处理器 —— 数据通路
  8. 窗体方法VB.NET设置控件和窗体的显示级别
  9. 机器学习 jupyter Python 监督学习 KNN算法 海伦约会实验
  10. 读书有益——》谁不曾浑身是伤,谁不曾彷徨迷惘