本文系统调研了CNN和Transformer的特性,并将两者结合提出新的家族式网络:CoAtNet,无额外数据时高达86%准确率,在JFT加持下,高达89.77%!性能优于CvT、BotNet和Swin等网络。

谷歌两天祭出两大Backbone,昨天的ViT-G,今天的CoAtNet…

注:别老收藏呀,欢迎点赞,支持分享!

想看更多CVPR 2021论文和开源项目可以点击:

CVPR2021-Papers-with-Code

CoAtNet

CoAtNet: Marrying Convolution and Attention for All Data Sizes

  • 作者单位:谷歌大脑(Quoc V. Le等人)
  • 论文:https://arxiv.org/abs/2106.04803

Transformers 在计算机视觉方面吸引了越来越多的兴趣,但它们仍然落后于最先进的卷积网络。在这项工作中,我们表明虽然 Transformer 往往具有更大的模型容量,但由于缺乏正确的归纳偏差,它们的泛化可能比卷积网络更差。

为了有效地结合两种架构的优势,我们提出了 CoAtNets(发音为“coat”nets),这是一个基于两个关键insight构建的混合模型系列:

(1)深度卷积和自注意力可以通过简单的相对注意力自然地统一起来;

(2) 以有原则的方式垂直堆叠卷积层和注意力层在提高泛化、容量和效率方面非常有效。

注:算法细节建议去看原文消化

CoAtNet家族

实验结果

实验表明,我们的 CoAtNets 在各种数据集的不同资源限制下实现了最先进的性能。

例如,CoAtNet 在没有额外数据的情况下实现了 86.0% 的 ImageNet top-1 准确率,在额外的 JFT 数据下达到了 89.77%,优于卷积网络和 Transformer 的现有技术。

值得注意的是,当使用来自 ImageNet-21K 的 1300 万张图像进行预训练时,我们的 CoAtNet 实现了 88.56% 的 top-1 准确率,与使用来自 JFT 的 300M 图像进行预训练的 ViT-huge 相匹配,同时使用的数据减少了 23 倍。



CVer-视觉Transformer交流群

建了CVer-Transformer交流群!想要进Transformer学习交流群的同学,可以直接加微信号:CVer9999。加的时候备注一下:Transformer+学校/公司+昵称,即可。然后就可以拉你进群了。

强烈推荐大家关注CVer知乎账号和CVer微信公众号,可以快速了解到最新优质的CV论文。

CoAtNet: Marrying Convolution and Attention for All Data Sizes相关推荐

  1. MOAT: ALTERNATING MOBILE CONVOLUTION AND ATTENTION BRINGS STRONG VISION MODELS

    MOAT: ALTERNATING MOBILE CONVOLUTION AND ATTENTION BRINGS STRONG VISION MODELS 一.引言 二.实现细节 (一).MBCon ...

  2. 89.77%准确率!谷歌大脑提出CoAtNet:结合卷积和注意力

    本文系统调研了CNN和Transformer的特性,并将两者结合提出新的家族式网络:CoAtNet,无额外数据时高达86%准确率,在JFT加持下,高达89.77%!性能优于CvT.BotNet和Swi ...

  3. 论文导读:CoAtNet是如何完美结合 CNN 和 Transformer的

    这篇文章主要介绍 Z. Dai 等人的论文 CoAtNet: Marrying Convolution and Attention for All Data Sizes.(2021 年). 2021 ...

  4. ECCV 2022 | 超越MobileViT!EdgeFormer:学习ViT来改进轻量级卷积网络

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:CV技术指南 前言 本文主要探究了轻量模型的设计.通过使用 ...

  5. A ConvNet for the 2020s

    A ConvNet for the 2020s 作者:Zhuang Liu1,2* Hanzi Mao1 Chao-Yuan Wu1 Christoph Feichtenhofer1 Trevor D ...

  6. [水文]论文极简记录

    分割 Pyramid vision transformer: A versatile backbone for dense prediction without convolutions condit ...

  7. CNN和Transformer相结合的模型

    ©作者 |小欣 CNN广泛应用于计算机视觉的各种任务中,比如分类,检测,分割,CNN通过共享卷积核提取特征,减少网络参数数量,提高模型效率,另一方面CNN具有平移不变性,即无论特征被移动到图像的哪个位 ...

  8. ICLR 2023 超高分工作|把图片视为点集,简单聚类算法实现强悍视觉架构

    编|科技猛兽 源|极市平台 在本文中,作者回顾了视觉表征的一类经典方法:聚类 (Clustering) .作者将这种范式称之为上下文聚类 (Context Cluster).这是一种新的用于视觉表征的 ...

  9. 深度学习框架-Backbone汇总

    Backbone--  Neck -- Head 1.Backbone:翻译为骨干网络的意思,既然说是主干网络,就代表其是网络的一部分,那么是哪部分呢?这个主干网络大多时候指的是提取特征的网络,其作用 ...

最新文章

  1. 最锋利的Visual Studio Web开发工具扩展:Web Essentials详解
  2. WIN2003 X64 系统上安装sql server 2000 的步骤
  3. 小学奥数 7834 分成互质组 python
  4. Android 系统性能优化(11)---UC性能优化方案
  5. java string对象名称_java中常见对象——String
  6. 非root用户安装nginx
  7. 复旦大学2013--2014学年第一学期(13级)高等代数I期末考试第八大题解答
  8. kafka详细安装运行
  9. sphinx php搜索引擎,sphinx 全文搜索引擎
  10. 解决电脑开机黑屏只有鼠标的问题
  11. LaTeX之双栏模板表格布局(单双栏满宽+不满宽)
  12. 企业邮箱群发邮件 - 邮件群组群发邮件详解
  13. 一文入门车载以太网,吐血整理!不看后悔!
  14. PCIe link up bug 分析
  15. 关于Windows的dns修复
  16. php实现踢下线,浅谈踢人下线的设计思路!(附代码实现方案)
  17. windows下解压.bz文件
  18. 关于B2C电子商务顾客忠诚度影响因素的问卷调查
  19. 海明检验码和循环冗余校验码
  20. 前端数据类型转化——字符串转数组

热门文章

  1. 电脑不会关闭防火墙?教你Win10关闭防火墙设置方法
  2. huoshan xl,xa,xg,xk签名参数
  3. 浅薄”绝不该是中国程序员的性格特征[转载]
  4. CS244W: Machine Learning with Graphs (3) ——网络中的Motifs和结构
  5. 通过设置svn服务端钩子强制提交注释和限制指定类型文件提交
  6. HFSS(ANSYS Electronics)和ADS(Advanced Design system)联合仿真
  7. java mcu 视频会议_视频会议终端和MCU两者有什么区别
  8. rmf文件 linux,Linux下使用静态库的问题
  9. [渝粤教育] 沈阳工业大学 模拟电子技术 参考 资料
  10. 极致敏捷-使用C语言在Taskbus中一天实现ADS-B接收机和实时飞行地图