ECCV 2022 | 上交华为提出SdAE:自蒸馏掩码自编码器
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
作者:鹦鹉丛中笑 | 已授权转载(源:知乎)编辑:CVer
https://zhuanlan.zhihu.com/p/485061820
SdAE: Self-distillated Masked Autoencoder
论文:https://arxiv.org/abs/2208.00449
代码:https://github.com/AbrahamYabo/SdAE
1. 论文动机
介绍了BEIT和PECO的弊端,是需要一个预先训练好的dVAE来提供最后的预测目标。这种tokenizer需要pretrain。
介绍了MAE和splitmask的弊端,就是重建目标和语义理解可能有较大的鸿沟。
文章基于这两个点提出了改进:
a.引入根据EMA更新权重的教师模型,来产生预测目标。
b.其次是通过分析学生分支和教师分支之间的information bottleneck,从而提出一个新的重建的策略。
2. 具体做法
2-1.整体结构
相比于还原像素等low-level的特征,论文采用了教师分支输出特征的方法。并且对教师分支的特征进行Patch内部的归一化。
这部分预测目标的修改,在最近的工作其实比较多,不展开。
2-2. 教师模型的输入
文章通过分析学生分支和教师分支的输入之间的互信息,得出了三个结论。
a. 学生分支和教师分支的输入要尽量减少共享的信息,即输入的token避免重叠。
b. 学生分支和教师分支的输入的互信息量应该相等,因此文章设计了新的策略使得两个分支输入的patch数量接近。
c. 为了保留更多信息,要利用上更多的被遮掩的图像块。
因此文章提出了新的策略——先将被遮掩的块进行分组,保证每一组的图像块的数量和学生分支输入的数量接近,然后每一组图像块分别通过共享的教师分支的模型,得到相应的特征,作为被预测的对象。
这种新的策略相比于全图输入和被遮掩的块一次性输入,计算速度能有些许提升。
3. 实验结果
3-1.分类下游任务
finetune效果可以,在较少的epoch能有领先。但是线性的结果比较一般。
这里MAE应该是low-level feature的重建,任务目标跟SDAE(用了EMA更新的teacher)不一致。
3-2. 消融实验
从全图输入到只输入被遮掩的块,有0.5的掉点。
再加入新的策略,能够提升0.6%。
每一个epoch更新一次教师分支的权重效果更好。
teacher mask:用过多的被遮掩的块,整体会有提升趋势。
multi-fold mask(文章最后的方案):教师分支和学生分支输入接近时,下游准确率更高。
3-3. 附录的实验
随着训练轮次的提升,分类任务上没有什么提升。可能代表了这个方式训练的高效性。此外作者在这里也说可能达到了这个backbone在分类任务的瓶颈。
4. 结论
这个教师分支的输入的分析还是比较有意思的。
点击进入—> CV 微信技术交流群
CVPR 2022论文和代码下载
后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
ECCV 2022 | 上交华为提出SdAE:自蒸馏掩码自编码器相关推荐
- #今日论文推荐#ECCV 2022 | 清华字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏
#今日论文推荐#ECCV 2022 | 清华&字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏 知识蒸馏主要可以分为logit蒸馏和feature蒸馏.其中feature蒸馏具有更好的拓 ...
- ECCV 2022 | 清华字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:美索不达米亚平原 | 已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhi ...
- ICML 2021 | 上交华为提出GWD:旋转目标检测新方法
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:yangxue | 已授权转载(源:知乎) https://zhuanlan.zhihu.com/p ...
- ECCV 2022 | 浙大快手提出CoText:基于对比学习和多信息表征的端到端视频OCR模型...
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:CSIG文档图像分析与识别专委会 本文是对快手和浙大联合研 ...
- ECCV 2022 | 清华腾讯AI Lab提出REALY: 重新思考3D人脸重建的评估方法
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 本文分享ECCV 2022论文<REALY: Rethink ...
- ECCV 2022 | 阿里提出:快速动作识别的时空自注意力模型
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->CV微信技术交流群 一.论文&代码 Spatiotemporal Self-att ...
- ECCV 2022 | 浙大提出:基于骨骼点的少样本动作识别
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:Dropooict | 已授权转载(源:知乎)编辑:CVer https://zhuanlan.zh ...
- ECCV 2022 | 网易互娱AI Lab提出首个基于单幅图片的实时高分辨率人脸重演算法
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:机器之心 | 作者:网易互娱AI Lab 网易互娱 AI ...
- ECCV 2022 | 适用于分类,检测,分割的生成式知识蒸馏开源
作者丨美索不达米亚平原@知乎 (已授权) 来源丨https://zhuanlan.zhihu.com/p/539496128 编辑丨极市平台 导读 本文主要介绍ECCV 2022关于知识蒸馏的工作: ...
最新文章
- sql server 2005 T-SQL CAST 和 CONVERT (Transact-SQL)
- Oracle存储过程创建及调用(转)
- Shell基础-环境变量配置文件
- Spire.XLS试用手记
- LIVE555再学习 -- live555实现RTSP直播服务器 分析
- [导入]基类的复制控制函数
- Java开发中更多常见的危险信号
- Mysql字符串连接
- iOS:选择器控件UIPickerView的详解和演示
- 网赚项目之站群第一课如何利用站群快速赚钱
- 财务分析之资产负债表
- 一维数组的定义以及使用
- 面向民航的航空数据链协议解析应用研究
- 搭建自己的ngrok服务(内网穿透 使用简单)
- 在线正则表达式解析器和可视化工具
- 如何制定有效的项目进度计划——甘特图
- Android 后台保活,这里有你需要的所有姿势。2019,最新版本。
- 布袋除尘器过滤风速多少_布袋除尘器过滤风速的确定标准是什么?
- oracle最小采购量,EBS oracle 批量导入更新MOQ(最小拆分量、采购提前期、最小订购量、最小包装量)...
- 国际标准之语言编码 - ISO-639