计算机视觉（CV）领域Transformer最新论文及资源整理分享

Transformer由论文《Attention is All You Need》提出，现在是谷歌云TPU推荐的参考模型。Transformer模型最早是用于机器翻译任务，当时达到了SOTA效果。Transformer改进了RNN最被人诟病的训练慢的缺点，利用self-attention机制实现快速并行。并且Transformer可以增加到非常深的深度，充分发掘DNN模型的特性，提升模型准确率。

本资源整理了至2021年transformer应用于计算机视觉（CV）领域最新的论文、代码数据等资源，分享给需要的朋友。

资源整理自网络，源地址：https://github.com/DirtyHarryLYL/Transformer-in-Vision

论文资源列表

Surery

(arXiv 2020.9) Efficient Transformers: A Survey, PDF

(arXiv 2020.1) Transformers in Vision: A Survey, PDF

Recent Papers

(ICLR'21) UPDET: UNIVERSAL MULTI-AGENT REINFORCEMENT LEARNING VIA POLICY DECOUPLING WITH TRANSFORMERS

(ICLR'21) Deformable DETR: Deformable Transformers for End-to-End Object Detection

(ICLR'21) LAMBDANETWORKS: MODELING LONG-RANGE INTERACTIONS WITHOUT ATTENTION

(ICLR'21) SUPPORT-SET BOTTLENECKS FOR VIDEO-TEXT REPRESENTATION LEARNING,

(ICLR'21) COLORIZATION TRANSFORMER

(ECCV'20) Multi-modal Transformer for Video Retrieval,

(ECCV'20) Connecting Vision and Language with Localized Narratives,

(ECCV'20) DETR: End-to-End Object Detection with Transformers

(CVPR'20) Multi-Modality Cross Attention Network for Image and Sentence Matching

(CVPR'20) Learning Texture Transformer Network for Image Super-Resolution

(CVPR'20) Speech2Action: Cross-modal Supervision for Action Recognition,

(ICPR'20) Transformer Encoder Reasoning Network

(EMNLP'19) Effective Use of Transformer Networks for Entity Tracking

(arXiv 2021.02) Is Space-Time Attention All You Need for Video Understanding?

(arXiv 2021.02) Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling

(arXiv 2021.02) Video Transformer Network,

(arXiv 2021.02) Training Vision Transformers for Image Retrieval,

(arXiv 2021.02) Relaxed Transformer Decoders for Direct Action Proposal Generation

(arXiv 2021.02) TransReID: Transformer-based Object Re-Identification,

(arXiv 2021.02) Improving Visual Reasoning by Exploiting The Knowledge in Texts,

(arXiv 2021.01) Fast Convergence of DETR with Spatially Modulated Co-Attention,

(arXiv 2021.01) Dual-Level Collaborative Transformer for Image Captioning,

(arXiv 2021.01) SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation (arXiv 2021.1),

(arXiv 2021.01) CPTR: FULL TRANSFORMER NETWORK FOR IMAGE CAPTIONING,

(arXiv 2021.01) Trans2Seg: Transparent Object Segmentation with Transformer

(arXiv 2021.01) Scheduled Sampling in Vision-Language Pretraining with Decoupled Encoder-Decoder Network

(arXiv 2021.01) Trear: Transformer-based RGB-D Egocentric Action Recognition,

(arXiv 2021.01) Learn to Dance with AIST++: Music Conditioned 3D Dance Generation

(arXiv 2021.01) Spherical Transformer: Adapting Spherical Signal to CNNs,

(arXiv 2021.01) Are We There Yet? Learning to Localize in Embodied Instruction Following,

(arXiv 2021.01) VinVL: Making Visual Representations Matter in Vision-Language Models,

(arXiv 2021.01) Bottleneck Transformers for Visual Recognition,

(arXiv 2021.01) Investigating the Vision Transformer Model for Image Retrieval Tasks,

(arXiv 2021.01) ADDRESSING SOME LIMITATIONS OF TRANSFORMERS WITH FEEDBACK MEMORY,

(arXiv 2021.01) Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet

(arXiv 2021.01) TrackFormer: Multi-Object Tracking with Transformers,

(arXiv 2021.01) VisualSparta: Sparse Transformer Fragment-level Matching for Large-scale Text-to-Image Search,

(arXiv 2021.01) Line Segment Detection Using Transformers without Edges,

(arXiv 2021.01) Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers,

(arXiv 2020.12) Accurate Word Representations with Universal Visual Guidance,

(arXiv 2020.12) DETR for Pedestrian Detection,

(arXiv 2020.12) Transformer Interpretability Beyond Attention Visualization

(arXiv 2020.12) PCT: Point Cloud Transformer,

(arXiv 2020.12) TransPose: Towards Explainable Human Pose Estimation by Transformer,

(arXiv 2020.12) Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

(arXiv 2020.12) Transformer Guided Geometry Model for Flow-Based Unsupervised Visual Odometry,

(arXiv 2020.12) Transformer for Image Quality Assessment

(arXiv 2020.12) TransTrack: Multiple-Object Tracking with Transformer

(arXiv 2020.12) 3D Object Detection with Pointformer,

(arXiv 2020.12) Training data-efficient image transformers & distillation through attention,

(arXiv 2020.12) Toward Transformer-Based Object Detection,

(arXiv 2020.12) SceneFormer: Indoor Scene Generation with Transformers,

(arXiv 2020.12) Point Transformer,

(arXiv 2020.12) End-to-End Human Pose and Mesh Reconstruction with Transformers,

(arXiv 2020.12) Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting,

(arXiv 2020.12) Pre-Trained Image Processing Transformer,

(arXiv 2020.12) Taming Transformers for High-Resolution Image Synthesis

(arXiv 2020.11) End-to-end Lane Shape Prediction with Transformers

(arXiv 2020.11) UP-DETR: Unsupervised Pre-training for Object Detection with Transformers,

(arXiv 2020.11) End-to-End Video Instance Segmentation with Transformers,

(arXiv 2020.11) Rethinking Transformer-based Set Prediction for Object Detection,

(arXiv 2020.11) General Multi-label Image Classification with Transformers, [](https://arxiv.org/pdf/2011.14027}

(arXiv 2020.11) End-to-End Object Detection with Adaptive Clustering Transformer,

(arXiv 2020.10) An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

(arXiv 2020.07) Oscar: Object-Semantics Aligned Pre-training for Vision-and-Language Tasks

(arXiv 2020.07) Feature Pyramid Transformer

(arXiv 2020.06) Visual Transformers: Token-based Image Representation and Processing for Computer Vision,

(arXiv 2019.08) LXMERT: Learning Cross-Modality Encoder Representations from Transformers

往期精品内容推荐

摇身一变，智能对话在物联网的巧妙应用

互联网面试必读-《用算法和数据结构解决问题》免费pdf分享

加州理工《数据驱动算法设计》课程(2020)视频及ppt分享

推荐系统领域常见公共数据集整理分享

20年6月最新-《深度神经网络的高效处理技术综述》免费书分享

Yoshua Bengio-深度学习处理系统2

历史最全图像/视频去模糊化精选论文整理分享

两分钟论文解读之让蒙娜丽莎开口说话

函数式编程规范新书-《Frisby函数式编程的基本指南》最新版pdf免费分享

深度学习基础：正向模型、可微损失函数与优化

计算机视觉（CV）领域Transformer最新论文及资源整理分享相关推荐

计算机视觉领域多任务学习相关论文、数据集、网络结构等资源整理分享
MTL 是机器学习中一个很有前景的领域,其目标是利用多个学习任务中所包含的有用信息来帮助为每个任务学习得到更为准确的学习器.我们假设所有任务(至少其中一部分任务)是相关的,在此基础上,我们在实验和理论 ...
【杂谈】如何学会看arxiv.org才能不错过自己研究领域的最新论文？
文章首发于微信公众号<有三AI> [杂谈]如何学会看arxiv.org才能不错过自己研究领域的最新论文? 今天介绍一个用于追踪arxiv.org平台上最新论文的工具arxiv-sanity ...
【深度学习】深度学习三维人体建模最新论文、资源、数据、代码整理分享
三维人体建模作为计算机人体仿真的一个组成部分,一直是人们研究的热点之一.自交互式计算机图形学诞生之日起,就有学者不断探索计算机人体建模技术.从线框建模.实体建模.曲面建模发展到基于物理的建模,已取得重 ...
深度学习三维人体建模最新论文、资源、数据、代码整理分享
三维人体建模作为计算机人体仿真的一个组成部分,一直是人们研究的热点之一.自交互式计算机图形学诞生之日起,就有学者不断探索计算机人体建模技术.从线框建模.实体建模.曲面建模发展到基于物理的建模,已取得重 ...
最新《动手学习深度学习》配套课程视频、笔记、ppt等资源整理分享
<动手学习深度学习>是李沐老师(AWS 资深首席科学家,美国卡内基梅隆大学计算机系博士)主讲的一系列深度学习视频.本项目收集了我们在寒假期间学习<动手学习深度学习>过程中详细的 ...
2021最新论文查重网站分享（附免费查重网址）
前言相信大家在写毕业论文会用到吧,虽然现在不是写论文的时候也不是我写论文的时候,但是可以保存一波. 正文如下免费论文查重检测系统,毕业论文查重网. PaperPass:PaperPass官网-论文 ...
视觉+Transformer最新论文出炉，华为联合北大、悉尼大学发表
作者 | CV君来源 | 我爱计算机视觉 Transformer 技术最开始起源于自然语言处理领域,但今年5月份Facebook 的一篇文章将其应用于计算机视觉中的目标检测(DETR算法,目前已有7 ...
2022年最新目标跟踪顶会论文及模型整理分享
啥是Object Tracking(目标追踪)? 简单点,一幅画面,指定里面一个目标,比如人.动物.车.飞机等等,然后一直死死锁定这个目标,不丢. 有啥用? 相机跟踪对焦,车辆跟踪,人体. ...
2020年最全 | 少样本学习（FSL）相关综述、数据集、模型/算法和应用资源整理分享...
文章来源 | 深度学习与NLP Few Shot Learning(FSL)又称少样本学习,这是做AI研究经常遇到的一个问题.深度学习技术需要大量的数据来训练一个好的模型.例如典型的 MNIST 分类 ...

计算机视觉（CV）领域Transformer最新论文及资源整理分享

计算机视觉（CV）领域Transformer最新论文及资源整理分享相关推荐

最新文章

热门文章