PVT(Pyramid Vision Transformer)算法整理

2024-05-19 09:14:32

整体架构

整个“金字塔”架构分为4个stage，每个stage内的基础结构是相似的，即：

Patch Embedding：目的在于将信息分块，降低单张图的图片大小，但会增加数据的深度
Transformer Encoder：目的在于计算图片的attention value，由于深度变大了，计算复杂度会变大，所以在这里作者使用了Special Reduction来减小计算复杂度

具体模块

Patch Embedding

Patch Embedding部分与ViT中对与图片的分块操作是一样的，即：

将原图切成总数为 $p_i\times p_i$ 的patches

具体操作：
使用卷积操作， $\mathrm{kernal\_size}=\frac{H}{p_i}，\mathrm{stride}=\frac{H}{p_i}$

将每个patch内的数据拉平，然后进行LayerNorm，此时每个patch内的数据大小为 $\frac{H_{i-1}W_{i-1}}{p_i^2}\times C_i$

Transformer Encoder

ViT中的Attention计算过程可以用如下公式表示：

$Q=W_qx+b_q\quad K=W_kx+b_k\quad V=W_vx+b_v\\ \mathrm{Attention}(Q,K,V)=\mathrm{Softmax}(\frac{QK^T}{\sqrt{d_{head}}})V$

QKT)V
假设输入(

x

)的大小为

HW\times C

，则

Q.\mathrm{shape}=K.\mathrm{shape}=V.\mathrm{shape}=HW\times C'

PVT中的Attention计算过程可以用如下公式表示：

$\mathrm{SRA}(Q,K,V)=\mathrm{Concat}(head_0,...head_{N_i})W^o,\\ (head_j=\mathrm{Attention}(QW_j^Q,\mathrm{SR}(K)W_j^K,\mathrm{SR}(V)W_j^V))\\ \mathrm{SR}(x)=\mathrm{Norm(Reshape}(x,R^i)W^S)\\ \mathrm{Attention}(Q,K,V)=\mathrm{Softmax}(\frac{QK^T}{\sqrt{d_{head}}})V$

QKT)V
假设输入(

x

)的大小为

HW\times C

，则

Q.\mathrm{shape}=HW\times C'，K.\mathrm{shape}=V.\mathrm{shape}=\frac{HW}{R_i^2}\times C'

，可以看出，使用这个方法之后，最终得到的结果的维度不变，但计算Attention的值时，参数的数量减少了很多

代码链接

https://github.com/whai362/PVT

PVT(Pyramid Vision Transformer)算法整理相关推荐

PVT(Pyramid Vision Transformer)学习记录
引言与启发自从ViT之后,关于vision transformer的研究呈井喷式爆发,从思路上分主要沿着两大个方向,一是提升ViT在图像分类的效果:二就是将ViT应用在其它图像任务中,比如分割和检测 ...
Pyramid Vision Transformer（PVT）: 纯Transformer设计，用于密集预测的通用backbone
论文地址:https://arxiv.org/pdf/2102.12122.pdf 官方代码:https://github.com/whai362/PVT 目录 0.摘要 1.引言 2.相关工作 2. ...
论文：Pyramid Vision Transformer
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions 金字塔视觉Tran ...
论文精读:PVT v2: Improved Baselines with Pyramid Vision Transformer
论文地址:https://arxiv.org/abs/2106.13797 源码地址:https://github.com/whai362/PVT Abstract 在这项工作中,作者改进了PVT v ...
大白话Pyramid Vision Transformer
本文转载自知乎,已获作者授权转载. 链接:https://zhuanlan.zhihu.com/p/353222035 TL;DR 这个工作把金字塔结构引入到Transformer[1]中,使得它可以 ...
基于Pyramid Vision Transformer（PVT-v2）实现奥特曼识别
前言大家好,我是阿光. 本专栏整理了<PyTorch深度学习项目实战100例>,内包含了各种不同的深度学习项目,包含项目原理以及源码,每一个项目实例都附带有完整的代码+数据集. 正在更新 ...
【深度学习】（ICCV-2021）PVT-金字塔 Vision Transformer及PVT_V2
目录 0. 详情 1. 简述 2.主要工作 2.1 ViT遗留的问题 2.2 引入金字塔结构 3.PVT的设计方案 3.1 Patch embedding 代码 3.2position embeddi ...
Vision Transformer发展现状
--------------- 声明 CSDN:越来越胖的GuanRunwei 知乎:无名之辈 / IDPT集萃感知皆为本人 --------------- 背景自 DETR 与 Vision T ...
【读点论文】A Survey on Vision Transformer,2022年华为诺亚最新综述研究，从发展到任务，整体到局部。ViT有研究价值在于有很多问题还没有解决，真理是阶段性的产物
A Survey on Vision Transformer Abstract transformer最早应用于自然语言处理领域,是一种主要基于自注意机制的深度神经网络.由于其强大的表示能力,研究人员 ...
VIT Adapter【Vision Transformer Adapter for Dense Predictions】论文笔记
Vision Transformer Adapter for Dense Predictions 论文地址:2205.08534.pdf (arxiv.org) 代码地址:https://github ...

最新文章

热门文章