本文系统调研了CNN和Transformer的特性，并将两者结合提出新的家族式网络：CoAtNet，无额外数据时高达86%准确率，在JFT加持下，高达89.77%！性能优于CvT、BotNet和Swin等网络。

谷歌两天祭出两大Backbone，昨天的ViT-G，今天的CoAtNet…

注：别老收藏呀，欢迎点赞，支持分享！

想看更多CVPR 2021论文和开源项目可以点击：

CVPR2021-Papers-with-Code

CoAtNet

CoAtNet: Marrying Convolution and Attention for All Data Sizes

作者单位：谷歌大脑（Quoc V. Le等人）
论文：https://arxiv.org/abs/2106.04803

Transformers 在计算机视觉方面吸引了越来越多的兴趣，但它们仍然落后于最先进的卷积网络。在这项工作中，我们表明虽然 Transformer 往往具有更大的模型容量，但由于缺乏正确的归纳偏差，它们的泛化可能比卷积网络更差。

为了有效地结合两种架构的优势，我们提出了 CoAtNets（发音为“coat”nets），这是一个基于两个关键insight构建的混合模型系列：

（1）深度卷积和自注意力可以通过简单的相对注意力自然地统一起来；

(2) 以有原则的方式垂直堆叠卷积层和注意力层在提高泛化、容量和效率方面非常有效。

注：算法细节建议去看原文消化

CoAtNet家族

实验结果

实验表明，我们的 CoAtNets 在各种数据集的不同资源限制下实现了最先进的性能。

例如，CoAtNet 在没有额外数据的情况下实现了 86.0% 的 ImageNet top-1 准确率，在额外的 JFT 数据下达到了 89.77%，优于卷积网络和 Transformer 的现有技术。

值得注意的是，当使用来自 ImageNet-21K 的 1300 万张图像进行预训练时，我们的 CoAtNet 实现了 88.56% 的 top-1 准确率，与使用来自 JFT 的 300M 图像进行预训练的 ViT-huge 相匹配，同时使用的数据减少了 23 倍。

CVer-视觉Transformer交流群

建了CVer-Transformer交流群！想要进Transformer学习交流群的同学，可以直接加微信号：CVer9999。加的时候备注一下：Transformer+学校/公司+昵称，即可。然后就可以拉你进群了。

强烈推荐大家关注CVer知乎账号和CVer微信公众号，可以快速了解到最新优质的CV论文。

CoAtNet: Marrying Convolution and Attention for All Data Sizes相关推荐

MOAT: ALTERNATING MOBILE CONVOLUTION AND ATTENTION BRINGS STRONG VISION MODELS
MOAT: ALTERNATING MOBILE CONVOLUTION AND ATTENTION BRINGS STRONG VISION MODELS 一.引言二.实现细节 (一).MBCon ...
89.77%准确率！谷歌大脑提出CoAtNet：结合卷积和注意力
本文系统调研了CNN和Transformer的特性,并将两者结合提出新的家族式网络:CoAtNet,无额外数据时高达86%准确率,在JFT加持下,高达89.77%!性能优于CvT.BotNet和Swi ...
论文导读：CoAtNet是如何完美结合 CNN 和 Transformer的
这篇文章主要介绍 Z. Dai 等人的论文 CoAtNet: Marrying Convolution and Attention for All Data Sizes.(2021 年). 2021 ...
ECCV 2022 | 超越MobileViT！EdgeFormer：学习ViT来改进轻量级卷积网络
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达点击进入-> CV 微信技术交流群转载自:CV技术指南前言本文主要探究了轻量模型的设计.通过使用 ...
A ConvNet for the 2020s
A ConvNet for the 2020s 作者:Zhuang Liu1,2* Hanzi Mao1 Chao-Yuan Wu1 Christoph Feichtenhofer1 Trevor D ...
[水文]论文极简记录
分割 Pyramid vision transformer: A versatile backbone for dense prediction without convolutions condit ...
CNN和Transformer相结合的模型
©作者 |小欣 CNN广泛应用于计算机视觉的各种任务中,比如分类,检测,分割,CNN通过共享卷积核提取特征,减少网络参数数量,提高模型效率,另一方面CNN具有平移不变性,即无论特征被移动到图像的哪个位 ...
ICLR 2023 超高分工作｜把图片视为点集，简单聚类算法实现强悍视觉架构
编|科技猛兽源|极市平台在本文中,作者回顾了视觉表征的一类经典方法:聚类 (Clustering) .作者将这种范式称之为上下文聚类 (Context Cluster).这是一种新的用于视觉表征的 ...
深度学习框架-Backbone汇总
Backbone-- Neck -- Head 1.Backbone:翻译为骨干网络的意思,既然说是主干网络,就代表其是网络的一部分,那么是哪部分呢?这个主干网络大多时候指的是提取特征的网络,其作用 ...

CoAtNet: Marrying Convolution and Attention for All Data Sizes

CoAtNet

实验结果

CVer-视觉Transformer交流群

CoAtNet: Marrying Convolution and Attention for All Data Sizes相关推荐

最新文章

热门文章