Swin trasnformer 学习笔记
提示:Swin transformer 学习笔记,仅供学习记录,方便日后回顾,侵删
文章目录
- 前言
- 一、主要贡献
- 1.如何抓住多尺度特征
- 2. 滑动窗口和窗口自注意力
- 二、网络主干
- 1.模型整体架构
- 2.怎样提高移动窗口的计算效率:采用masking(掩码)的方式计算自注意力
- 3. 相对位置编码
- 三、其他知识补充:
- 1.Test time augmentation(TTA)
- 2. 神经架构搜索(Neural Architecture Search,NAS)
- 3. 归纳偏置(inductive bias)
前言
文章只供自己学习使用,侵删
文章主要通过观看B站沐神视频和霹雳吧啦博主视频做的笔记。优秀的文章和网络结构很多,需要慢慢学习。
一、主要贡献
通过两张图来展示
1.如何抓住多尺度特征
2. 滑动窗口和窗口自注意力
二、网络主干
1.模型整体架构
2.怎样提高移动窗口的计算效率:采用masking(掩码)的方式计算自注意力
3. 相对位置编码
不同于ViT中在输入序列中加上一个绝对的位置编码,swinTransformer使用的是相对位置偏置,加在attention内部的查询操作里。
参考:
1. 沐神swin transformer 讲解
2. 霹雳吧啦 swin transformer 讲解
三、其他知识补充:
1.Test time augmentation(TTA)
数据增强通常使用图像数据执行,其中使用一些执行的图像处理技术(如缩放、翻转、移位等)创建训练数据集中的图像副本。
Test time augmentation(简称TTA)是对测试数据集进行数据扩展的应用程序。
Test Time Augmentation(TTA),测试数据增强,是在测试阶段时,将输入的测试数据进行,翻转、旋转操作等数据增强,并最后对同一样本的不同数据增强的结果根据任务需求进行例如平均,求和等数据处理。
可以提升最终结果的精度。因为在作图像增强时,可能导致图像关键信息丢失。
参考
2. 神经架构搜索(Neural Architecture Search,NAS)
简介:
NAS 的目的就是希望可以有一套演算法或是一个框架能够自动的根据我们的需求找到最好的 neural architecture,而我们的搜索目标有可能会是根据 performance,或是根据硬体资源限制 (hardware constraints) 来进行搜索。
参考:神经架构搜索(Neural Architecture Search,NAS)介绍
3. 归纳偏置(inductive bias)
最先看到这个词,是在读有关卷积神经网络的时候看到的,它是讲CNN使用滑动卷积窗口共享权重来降低空间参数,其实就是一种归纳偏置,因为CNN认为图像信息具有空间局部性(locality)。从这个角度来讲的话,归纳偏置可以简单理解为网络自身的偏好,网络自身的特性。“归纳”一词,就可以于数学上的数学归纳法意思相似,可以理解为归纳性偏好。
西瓜书中对归纳偏好是这样的定义的,机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好,简称偏好(1.4节,6)。归纳偏好可以看作学习算法自身在一个庞大的假设空间中对假设进行选择的启发式或者“价值观”。
在深度学习时代,这种归纳性偏好更为明显。比如深度神经网络结构就偏好性的认为,层次化处理信息有更好效果;卷积神经网络认为信息具有空间局部性(locality),可以用滑动卷积共享权重方式降低参数空间;反馈神经网络则将时序信息考虑进来强调顺序重要性;图网络则是认为中心节点与邻居节点的相似性会更好引导信息流动。可以说深度学习时代,纷繁的网络结构创新就体现了不同的归纳性偏。
参考知乎作者:Young
Swin trasnformer 学习笔记相关推荐
- 计算机视觉算法——Transformer学习笔记
算机视觉算法--Transformer学习笔记 计算机视觉算法--Transformer学习笔记 1. Vision Transformer 1.1 网络结构 1.2 关键知识点 1.2.1 Self ...
- PVTV2--Pyramid Vision TransformerV2学习笔记
PVTV2–Pyramid Vision TransformerV2学习笔记 PVTv2: Improved Baselines with Pyramid Vision Transformer Abs ...
- Hydra Attention学习笔记
Hydra Attention学习笔记 Hydra Attention:Efficient Attention with Many Heads Abstract 虽然transformers已经开始在 ...
- Deformable Attention学习笔记
Deformable Attention学习笔记 Vision Transformer with Deformable Attention Abstract Transformer 最近在各种视觉任务 ...
- PyTorch 学习笔记(六):PyTorch hook 和关于 PyTorch backward 过程的理解 call
您的位置 首页 PyTorch 学习笔记系列 PyTorch 学习笔记(六):PyTorch hook 和关于 PyTorch backward 过程的理解 发布: 2017年8月4日 7,195阅读 ...
- 容器云原生DevOps学习笔记——第三期:从零搭建CI/CD系统标准化交付流程
暑期实习期间,所在的技术中台-效能研发团队规划设计并结合公司开源协同实现符合DevOps理念的研发工具平台,实现研发过程自动化.标准化: 实习期间对DevOps的理解一直懵懵懂懂,最近观看了阿里专家带 ...
- 容器云原生DevOps学习笔记——第二期:如何快速高质量的应用容器化迁移
暑期实习期间,所在的技术中台-效能研发团队规划设计并结合公司开源协同实现符合DevOps理念的研发工具平台,实现研发过程自动化.标准化: 实习期间对DevOps的理解一直懵懵懂懂,最近观看了阿里专家带 ...
- 2020年Yann Lecun深度学习笔记(下)
2020年Yann Lecun深度学习笔记(下)
- 2020年Yann Lecun深度学习笔记(上)
2020年Yann Lecun深度学习笔记(上)
最新文章
- vue ts 设置tslint提示_Typescript 在 Vue 中的实践(包含2.x、3.x)
- 面试官:private修饰的方法可以通过反射访问,那么private的意义是什么?
- 【ICML2021】具有持续进化策略的展开计算图的无偏梯度估计
- DNS隧道之DNS2TCP实现——dns2tcpc必须带server IP才可以,此外ssh可以穿过墙的,设置代理上网...
- Interview:算法岗位面试—11.07早上上海某机器人公司(上市)面试之项目考察、比赛考察、图像算法的考察等
- 关于tolua的使用
- 遗传算法锦标赛选择java实现_java – 遗传算法锦标赛选择
- python 等值面 插值_利用numpy/scipy从三维阵列计算等值面
- Java操作MongoDB(聚合函数)向Mongo插入及查询数据
- 笔记本计算机显示图标,笔记本电脑声音图标不见了?电脑声音图标显示红叉
- 学习使用DCMTK工具
- 智能客服搭建(4) - 语音流的分贝计算
- (CCNET)criss-cross attention network学习笔记
- 新消费下的国货崛起新模式!
- 基于递归回溯算法实现八皇后游戏问题
- linux多网卡的路由模式和桥接模式设置方法
- PHP开发基于Mirai的QQ机器人(一)
- java计算机毕业设计再生产公益管理系统设计与实现MyBatis+系统+LW文档+源码+调试部署
- C++语言基础篇(二)
- html 注释 实例,超详细的HTML !–…– 注释标签使用实例