点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

作者:鹦鹉丛中笑 |  已授权转载(源:知乎)编辑:CVer

https://zhuanlan.zhihu.com/p/485061820

SdAE: Self-distillated Masked Autoencoder
论文:https://arxiv.org/abs/2208.00449

代码:https://github.com/AbrahamYabo/SdAE

1. 论文动机

介绍了BEIT和PECO的弊端,是需要一个预先训练好的dVAE来提供最后的预测目标。这种tokenizer需要pretrain。

介绍了MAE和splitmask的弊端,就是重建目标和语义理解可能有较大的鸿沟。

文章基于这两个点提出了改进:

a.引入根据EMA更新权重的教师模型,来产生预测目标。

b.其次是通过分析学生分支和教师分支之间的information bottleneck,从而提出一个新的重建的策略。

2. 具体做法

2-1.整体结构

模型结构图

相比于还原像素等low-level的特征,论文采用了教师分支输出特征的方法。并且对教师分支的特征进行Patch内部的归一化。

这部分预测目标的修改,在最近的工作其实比较多,不展开。

2-2. 教师模型的输入

文章通过分析学生分支和教师分支的输入之间的互信息,得出了三个结论。

a. 学生分支和教师分支的输入要尽量减少共享的信息,即输入的token避免重叠。

b. 学生分支和教师分支的输入的互信息量应该相等,因此文章设计了新的策略使得两个分支输入的patch数量接近。

c. 为了保留更多信息,要利用上更多的被遮掩的图像块。

教师模型输入的策略

因此文章提出了新的策略——先将被遮掩的块进行分组,保证每一组的图像块的数量和学生分支输入的数量接近,然后每一组图像块分别通过共享的教师分支的模型,得到相应的特征,作为被预测的对象。

这种新的策略相比于全图输入和被遮掩的块一次性输入,计算速度能有些许提升。

3. 实验结果

3-1.分类下游任务

finetune效果可以,在较少的epoch能有领先。但是线性的结果比较一般。

这里MAE应该是low-level feature的重建,任务目标跟SDAE(用了EMA更新的teacher)不一致。

3-2. 消融实验

对教师分支输入的消融实验

从全图输入到只输入被遮掩的块,有0.5的掉点。

再加入新的策略,能够提升0.6%。

教师更新策略的消融实验

每一个epoch更新一次教师分支的权重效果更好。

教师分支输入策略的参数的消融实验

teacher mask:用过多的被遮掩的块,整体会有提升趋势。

multi-fold mask(文章最后的方案):教师分支和学生分支输入接近时,下游准确率更高。

3-3. 附录的实验

训练轮次的实验

随着训练轮次的提升,分类任务上没有什么提升。可能代表了这个方式训练的高效性。此外作者在这里也说可能达到了这个backbone在分类任务的瓶颈。

4. 结论

这个教师分支的输入的分析还是比较有意思的。

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

ECCV 2022 | 上交华为提出SdAE:自蒸馏掩码自编码器相关推荐

  1. #今日论文推荐#ECCV 2022 | 清华字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏

    #今日论文推荐#ECCV 2022 | 清华&字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏 知识蒸馏主要可以分为logit蒸馏和feature蒸馏.其中feature蒸馏具有更好的拓 ...

  2. ECCV 2022 | 清华字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:美索不达米亚平原 |  已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhi ...

  3. ICML 2021 | 上交华为提出GWD:旋转目标检测新方法

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:yangxue |  已授权转载(源:知乎) https://zhuanlan.zhihu.com/p ...

  4. ECCV 2022 | 浙大快手提出CoText:基于对比学习和多信息表征的端到端视频OCR模型...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:CSIG文档图像分析与识别专委会 本文是对快手和浙大联合研 ...

  5. ​ECCV 2022 | 清华腾讯AI Lab提出REALY: 重新思考3D人脸重建的评估方法

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 本文分享ECCV 2022论文<REALY: Rethink ...

  6. ECCV 2022 | 阿里提出:快速动作识别的时空自注意力模型

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->CV微信技术交流群 一.论文&代码 Spatiotemporal Self-att ...

  7. ECCV 2022 | 浙大提出:基于骨骼点的少样本动作识别

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:Dropooict |  已授权转载(源:知乎)编辑:CVer https://zhuanlan.zh ...

  8. ECCV 2022 | 网易互娱AI Lab提出首个基于单幅图片的实时高分辨率人脸重演算法

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:机器之心 |  作者:网易互娱AI Lab 网易互娱 AI ...

  9. ECCV 2022 | 适用于分类,检测,分割的生成式知识蒸馏开源

    作者丨美索不达米亚平原@知乎 (已授权) 来源丨https://zhuanlan.zhihu.com/p/539496128 编辑丨极市平台 导读 本文主要介绍ECCV 2022关于知识蒸馏的工作: ...

最新文章

  1. sql server 2005 T-SQL CAST 和 CONVERT (Transact-SQL)
  2. Oracle存储过程创建及调用(转)
  3. Shell基础-环境变量配置文件
  4. Spire.XLS试用手记
  5. LIVE555再学习 -- live555实现RTSP直播服务器 分析
  6. [导入]基类的复制控制函数
  7. Java开发中更多常见的危险信号
  8. Mysql字符串连接
  9. iOS:选择器控件UIPickerView的详解和演示
  10. 网赚项目之站群第一课如何利用站群快速赚钱
  11. 财务分析之资产负债表
  12. 一维数组的定义以及使用
  13. 面向民航的航空数据链协议解析应用研究
  14. 搭建自己的ngrok服务(内网穿透 使用简单)
  15. 在线正则表达式解析器和可视化工具
  16. 如何制定有效的项目进度计划——甘特图
  17. Android 后台保活,这里有你需要的所有姿势。2019,最新版本。
  18. 布袋除尘器过滤风速多少_布袋除尘器过滤风速的确定标准是什么?
  19. oracle最小采购量,EBS oracle 批量导入更新MOQ(最小拆分量、采购提前期、最小订购量、最小包装量)...
  20. 国际标准之语言编码 - ISO-639

热门文章

  1. Python——sqlalchemy.exc.InvalidRequestError
  2. Avatar,元宇宙不可或缺的关键拼图
  3. 正则表达式替换不包含指定头尾
  4. 3.8、集线器与交换机的区别
  5. 2016年Q2《网络安全创新500强》榜单解读
  6. 拼多多API接口(item_search-根据关键词取商品列表)
  7. JavaScript bind用法
  8. 基于微波雷达传感器的智能安全车门锁,微波雷达感应模组技术
  9. 没文化不可怕,可怕的是没文化还像我一样矫情
  10. WebView与JS的那些事:注入JS提取页面图片