CoAtNet: Marrying Convolution and Attention for All Data Sizes
本文系统调研了CNN和Transformer的特性,并将两者结合提出新的家族式网络:CoAtNet,无额外数据时高达86%准确率,在JFT加持下,高达89.77%!性能优于CvT、BotNet和Swin等网络。
谷歌两天祭出两大Backbone,昨天的ViT-G,今天的CoAtNet…
注:别老收藏呀,欢迎点赞,支持分享!
想看更多CVPR 2021论文和开源项目可以点击:
CVPR2021-Papers-with-Code
CoAtNet
CoAtNet: Marrying Convolution and Attention for All Data Sizes
- 作者单位:谷歌大脑(Quoc V. Le等人)
- 论文:https://arxiv.org/abs/2106.04803
Transformers 在计算机视觉方面吸引了越来越多的兴趣,但它们仍然落后于最先进的卷积网络。在这项工作中,我们表明虽然 Transformer 往往具有更大的模型容量,但由于缺乏正确的归纳偏差,它们的泛化可能比卷积网络更差。
为了有效地结合两种架构的优势,我们提出了 CoAtNets(发音为“coat”nets),这是一个基于两个关键insight构建的混合模型系列:
(1)深度卷积和自注意力可以通过简单的相对注意力自然地统一起来;
(2) 以有原则的方式垂直堆叠卷积层和注意力层在提高泛化、容量和效率方面非常有效。
注:算法细节建议去看原文消化
CoAtNet家族
实验结果
实验表明,我们的 CoAtNets 在各种数据集的不同资源限制下实现了最先进的性能。
例如,CoAtNet 在没有额外数据的情况下实现了 86.0% 的 ImageNet top-1 准确率,在额外的 JFT 数据下达到了 89.77%,优于卷积网络和 Transformer 的现有技术。
值得注意的是,当使用来自 ImageNet-21K 的 1300 万张图像进行预训练时,我们的 CoAtNet 实现了 88.56% 的 top-1 准确率,与使用来自 JFT 的 300M 图像进行预训练的 ViT-huge 相匹配,同时使用的数据减少了 23 倍。
CVer-视觉Transformer交流群
建了CVer-Transformer交流群!想要进Transformer学习交流群的同学,可以直接加微信号:CVer9999。加的时候备注一下:Transformer+学校/公司+昵称,即可。然后就可以拉你进群了。
强烈推荐大家关注CVer知乎账号和CVer微信公众号,可以快速了解到最新优质的CV论文。
CoAtNet: Marrying Convolution and Attention for All Data Sizes相关推荐
- MOAT: ALTERNATING MOBILE CONVOLUTION AND ATTENTION BRINGS STRONG VISION MODELS
MOAT: ALTERNATING MOBILE CONVOLUTION AND ATTENTION BRINGS STRONG VISION MODELS 一.引言 二.实现细节 (一).MBCon ...
- 89.77%准确率!谷歌大脑提出CoAtNet:结合卷积和注意力
本文系统调研了CNN和Transformer的特性,并将两者结合提出新的家族式网络:CoAtNet,无额外数据时高达86%准确率,在JFT加持下,高达89.77%!性能优于CvT.BotNet和Swi ...
- 论文导读:CoAtNet是如何完美结合 CNN 和 Transformer的
这篇文章主要介绍 Z. Dai 等人的论文 CoAtNet: Marrying Convolution and Attention for All Data Sizes.(2021 年). 2021 ...
- ECCV 2022 | 超越MobileViT!EdgeFormer:学习ViT来改进轻量级卷积网络
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:CV技术指南 前言 本文主要探究了轻量模型的设计.通过使用 ...
- A ConvNet for the 2020s
A ConvNet for the 2020s 作者:Zhuang Liu1,2* Hanzi Mao1 Chao-Yuan Wu1 Christoph Feichtenhofer1 Trevor D ...
- [水文]论文极简记录
分割 Pyramid vision transformer: A versatile backbone for dense prediction without convolutions condit ...
- CNN和Transformer相结合的模型
©作者 |小欣 CNN广泛应用于计算机视觉的各种任务中,比如分类,检测,分割,CNN通过共享卷积核提取特征,减少网络参数数量,提高模型效率,另一方面CNN具有平移不变性,即无论特征被移动到图像的哪个位 ...
- ICLR 2023 超高分工作|把图片视为点集,简单聚类算法实现强悍视觉架构
编|科技猛兽 源|极市平台 在本文中,作者回顾了视觉表征的一类经典方法:聚类 (Clustering) .作者将这种范式称之为上下文聚类 (Context Cluster).这是一种新的用于视觉表征的 ...
- 深度学习框架-Backbone汇总
Backbone-- Neck -- Head 1.Backbone:翻译为骨干网络的意思,既然说是主干网络,就代表其是网络的一部分,那么是哪部分呢?这个主干网络大多时候指的是提取特征的网络,其作用 ...
最新文章
- 最锋利的Visual Studio Web开发工具扩展:Web Essentials详解
- WIN2003 X64 系统上安装sql server 2000 的步骤
- 小学奥数 7834 分成互质组 python
- Android 系统性能优化(11)---UC性能优化方案
- java string对象名称_java中常见对象——String
- 非root用户安装nginx
- 复旦大学2013--2014学年第一学期(13级)高等代数I期末考试第八大题解答
- kafka详细安装运行
- sphinx php搜索引擎,sphinx 全文搜索引擎
- 解决电脑开机黑屏只有鼠标的问题
- LaTeX之双栏模板表格布局(单双栏满宽+不满宽)
- 企业邮箱群发邮件 - 邮件群组群发邮件详解
- 一文入门车载以太网,吐血整理!不看后悔!
- PCIe link up bug 分析
- 关于Windows的dns修复
- php实现踢下线,浅谈踢人下线的设计思路!(附代码实现方案)
- windows下解压.bz文件
- 关于B2C电子商务顾客忠诚度影响因素的问卷调查
- 海明检验码和循环冗余校验码
- 前端数据类型转化——字符串转数组
热门文章
- 电脑不会关闭防火墙?教你Win10关闭防火墙设置方法
- huoshan xl,xa,xg,xk签名参数
- 浅薄”绝不该是中国程序员的性格特征[转载]
- CS244W: Machine Learning with Graphs (3) ——网络中的Motifs和结构
- 通过设置svn服务端钩子强制提交注释和限制指定类型文件提交
- HFSS(ANSYS Electronics)和ADS(Advanced Design system)联合仿真
- java mcu 视频会议_视频会议终端和MCU两者有什么区别
- rmf文件 linux,Linux下使用静态库的问题
- [渝粤教育] 沈阳工业大学 模拟电子技术 参考 资料
- 极致敏捷-使用C语言在Taskbus中一天实现ADS-B接收机和实时飞行地图