来源:DeepHub IMBA

本文约3100字,建议阅读10分钟

本文为你推荐7-9月的MAE相关的9篇论文。

1、Heterogeneous Graph Masked Autoencoders

Yijun Tian, Kaiwen Dong, Chunhui Zhang, Chuxu Zhang, Nitesh V. Chawla

https://arxiv.org/pdf/2208.09957

生成式自监督学习(SSL),特别是带掩码自编码器已经成为最令人兴奋的学习范式之一,并且在图学习方面显示出巨大的潜力。但是现实世界的图总是异构的,这带来了三个关键的挑战,现有的方法忽略了:

  1. 如何捕获复杂的图结构?

  2. 如何整合各种节点属性?

  3. 如何编码不同的节点位置?

这篇论文研究了异构图上的SSL的问题,并提出了一种新的异构图掩码自编码器模型HGMAE来解决这些问题。HGMAE通过两种创新的掩码技术和三种独特的训练策略捕捉全面的图信息。论文通过大量的实验证明,在跨多个数据集的多个任务上,HGMAE优于对比和最先进的基线。

2、Federated Self-Supervised Contrastive Learning and Masked Autoencoder for Dermatological Disease Diagnosis

Yawen Wu, Dewen Zeng, Zhepeng Wang, Yi Sheng, Lei Yang, Alaina J. James, Yiyu Shi, Jingtong Hu

https://arxiv.org/pdf/2208.11278/

在皮肤病诊断中,由于收集的患者私人数据存在于分布式移动设备上。联邦学习 (FL) 可以使用去中心化数据来训练模型,同时保持数据本地化。现有的 FL 方法假设所有数据都有标签。但是由于标签成本高,医学数据通常没有完整的标签。自监督学习 (SSL) 方法、对比学习 (CL) 和掩码自编码器 (MAE) 是可以利用未标记数据来预训练模型,然后使用有限标签进行微调。但是结合 SSL 和 FL 是遇到的一个挑战。例如,CL 需要不同的数据,但每个设备只有有限的数据。对于 MAE,虽然基于ViT的 MAE 在集中学习中比 CNN 具有更高的准确性,但尚未有人研究 MAE 在 FL 中使用未标记数据的性能。此外,服务器和客户端之间的 ViT 同步与传统的 CNN 不同。因此,需要设计特殊的同步方法。

这篇论文提出了两个用于标签有限的皮肤病诊断的基于联邦学的自监督学习框架。第一个具有较低的计算成本,适用于移动设备。第二个具有高精度,适合高性能服务器。基于 CL提出了具有特征共享的联邦对比学习(FedCLF)。为不同的对比信息共享特征,而不需要共享原始数据以保护隐私。基于 MAE,提出了 FedMAE。知识拆分将每个客户那里学到的全局知识和本地知识分开。仅聚合全局知识以获得更高的泛化性能。对皮肤病数据集的实验表明,所提出的框架比现有技术具有更高的准确性。

3、Multimodal Learning with Channel-Mixing and Masked Autoencoder on Facial Action Unit Detection

Xiang Zhang, Huiyuan Yang, Taoyue Wang, Xiaotian Li, Lijun Yin

https://arxiv.org/pdf/2209.12244

利用多模态数据的可以为面部动作单元 (AU) 检测建立一个稳健的模型。但是由于多模态数据的异构性,多模态表示学习成为主要挑战之一。仅通过一个特征提取器很难从多模态中提取相关特征,以前的研究还没有充分挖掘多模态融合策略的潜力。前期融合通常需要在推理过程中使用所有模态,而后期融合和中间融合增加了特征学习的网络规模。与后期融合的大量工作相比,前期融合探索通道信息的工作很少。本文提出了一种新的多模态网络,称为多模态通道混合(MCM),可以作为一种预训练模型来学习更加稳健的表示并促进多模态融合。在自动面部动作单元检测的下游任务中评估学习的表示。我们对两个公共数据集(BP4D 和 DISFA)进行了广泛的实验,评估所提出的多模式框架的有效性和稳健性,结果表明论文的方法相当或优于于最先进的基线方法。

4、Contrastive Masked Autoencoders are Stronger Vision Learners

Zhicheng Huang, Xiaojie Jin, Chengze Lu, Qibin Hou, Ming-Ming Cheng, Dongmei Fu, Xiaohui Shen, Jiashi Feng

https://arxiv.org/abs/2207.13532

论文提出了一种一种新的自我监督预训练方法:对比的带掩码的自编码器 (CMAE)。通过新的设计将对比学习 (CL) 和掩码图像模型 (MIM) 精心统一起来,CMAE 充分利用了它们各自的优势,并学习了具有强实例可识别性和局部可感知性的表示。CMAE 由两个分支组成,其中在线分支是非对称编码器-解码器,目标分支是动量更新编码器。在训练期间,在线编码器从掩码图像的潜在表示中重建原始图像,以学习整体特征。输入完整图像的目标编码器通过与其在线对应物的对比学习来增强特征可辨别性。为了使 CL 与 MIM 兼容,CMAE 还引入了两个新组件。CMAE 在图像分类、语义分割和对象检测基准上实现了最先进的性能。

CMAE-Base 在 ImageNet 上实现了 85.3% 的 top-1 准确率,在 ADE20k 上实现了 52.5% 的 mIoU,分别超过了之前的最佳结果 0.7% 和 1.8%。代码也即将公开。

5、Test-Time Training with Masked Autoencoders

Yossi Gandelsman, Yu Sun, Xinlei Chen, Alexei A. Efros

https://arxiv.org/abs/2209.07522

Test-Time Training通过对每个测试输入使用自监督优化模型来动态适应新的测试分布。论文使用带掩码自编码器来解决这个单样本学习问题。从经验上讲,这个简单方法提高了分布位移的许多可视基准的泛化能力。理论上,可以用偏差-方差权衡来描述这种改进

6、Exploring Target Representations for Masked Autoencoders

Xingbin Liu, Jinghao Zhou, Tao Kong, Xianming Lin, Rongrong Ji

https://arxiv.org/pdf/2209.03917

MAE已成为自监督视觉表征学习的流行训练范式。这些模型随机屏蔽输入的一部分,并根据目标表示重新构建被屏蔽的部分。这篇论文首先表明:对于学习好的表示来说,仔细选择目标表示不是必须的,因为不同的目标往往派生出相似的行为模型。在这种观察的驱动下,论文提出了多级带掩码的蒸馏管道,使用一个随机初始化的模型作为老师,无需仔细设计目标表示就能够有效地训练高容量模型。论文还进一步探索了使用更大能力的教师模型,获得了具有显著转移能力的学生模型。在不同的分类、迁移学习、目标检测和语义分割任务中,论文提出的使用dBOT进行知识蒸馏的方法优于以往的自监督方法。

7、SdAE: Self-distillated Masked Autoencoder

Yabo Chen, Yuchen Liu, Dongsheng Jiang, Xiaopeng Zhang, Wenrui Dai, Hongkai Xiong, Qi Tian

https://arxiv.org/pdf/2208.00449

随着基于生成的自监督学习(SSL)方法的发展(如BeiT和MAE),如何通过屏蔽输入图像的随机补丁和重建丢失的信息来学习良好的表示已经引起了越来越多的关注。BeiT 和 PeCo 需要一个“预训练”阶段来生成用于表示补丁的离散码列表。MAE不需要这个过程,但设置像素作为重建目标可能会在预训练和下游任务之间引入优化差距,良好的重建质量不一定会导致模型的高描述能力。

考虑到上述问题,本文提出了一种简单的自蒸馏掩码自编码器网络SdAE。SdAE由一个使用编码器-解码器结构来重建缺失信息的学生分支和一个生成掩码标记的潜在表示的教师分支组成。通过提供多个信息均衡的屏蔽视图来提高性能,同时也降低了计算复杂度。论文的方法具有很好的泛化性:在仅300轮预训练的情况下,普通的vito - base模型在ImageNet-1k分类上达到了84.1%的微调精度,在ADE20K分割上达到了48.6 mIOU,在COCO检测上达到了48.9 mAP,大大超过了其他方法。代码在这里 https://github.com/AbrahamYabo/SdAE

8、MeshMAE: Masked Autoencoders for 3D Mesh Data Analysis

Yaqian Liang, Shanshan Zhao, Baosheng Yu, Jing Zhang, Fazhi He

https://arxiv.org/pdf/2207.10228

自我监督的预训练使VIT在不同的数据模式(如图像和3D点云数据)下完成各种任务。这篇论文探索了基于transformer的3D网格数据分析学习范式。将Transformer架构应用到新的模式通常是并不简单,论文首先将Vision Transformer适应到3D网格数据处理,即mesh Transformer。将一个网格划分为几个不重叠的局部补丁,每个补丁包含相同数量的面,并利用每个补丁中心点的三维位置形成位置嵌入。

受MAE的启发,还探索了基于transformer结构的3D网格数据预训练如何有利于下游3D网格分析任务。随机屏蔽网格的一些补丁,并将损坏的网格输入mesh Transformer,然后通过重构掩码补丁的信息,网络能够学习网格数据的判别表示。论文将此方法命名为MeshMAE,它可以在网格分析任务中(分类和分割)产生最先进的或相当的性能,这篇论文还进行了全面的消融研究,以展示方法中关键设计的有效性。

9、Masked Autoencoders that Listen

Po-Yao Huang, Hu Xu, Juncheng Li, Alexei Baevski, Michael Auli, Wojciech Galuba, Florian Metze, Christoph Feichtenhofer

https://arxiv.org/pdf/2207.06405

这篇论文研究了基于图像的掩模自编码器(MAE)在音频谱图的简单扩展。遵循MAE中的Transformer编码器-解码器设计,audio -MAE首先以高掩码率编码音频谱图,只通过编码器层提供非掩码令牌。然后解码器对带有掩码标记的编码上下文进行重新排序和解码,重建输入谱图。因为音频谱图在局部时间和频带中高度相关所以在解码器中加入局部窗口注意是有益的。论文还对编码器进行微调,使其在目标数据集上具有较低的掩蔽率。audio - mae在6个音频和语音分类任务上产生了优于其他使用外部监督的预训练的近期模型的最先进的性能。

代码和模型将在这里:

https://github.com/facebookresearch/AudioMAE

作者:Monodeep Mukherjee

编辑:黄继彦

带掩码的自编码器(MAE)最新的相关论文推荐相关推荐

  1. 带掩码的自编码器MAE在各领域中的应用总结

    机器学习算法应该理解数据从中提取有用的特征才能够解决复杂的任务.通常训练泛化模型需要大量带注释的数据.这个是非常费时费力的,并且一般情况下都很难进行. 所以各种基于带掩码的自编码器技术就出现了,这种技 ...

  2. 在预测中使用LSTM架构的最新5篇论文推荐

    来源:Deephub Imba 本文约1700字,建议阅读5分钟 本文介绍了在预测中使用LSTM架构的5篇最新论文. 1.Integrating LSTMs and GNNs for COVID-19 ...

  3. 【NLP系列】最新BERT相关论文汇总

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 项目资源链接:https://github.com/murufeng/Awesom ...

  4. 最新BERT相关论文汇总

    原文链接: https://github.com/murufeng/BERT_papers 项目列表展示: 更多项目详细内容,点击阅读原文查看.

  5. 八篇 NeurIPS 2019 最新图神经网络相关论文

    最近,人工智能和机器学习领域的国际顶级会议 NeurIPS 2019 接收论文公布,共有 1428 篇论文被接收.为了带大家抢先领略高质量论文,本文整理了八篇 NeurIPS 2019 最新 GNN ...

  6. 自监督学习之掩码自动编码器(Masked Autoencoders, MAE)——音频识别方面

    自监督学习之掩码自动编码器(Masked Autoencoders, MAE)--音频识别方面 1.参考文献 <Masked Autoencoders that Listen> 2.背景 ...

  7. 深入理解深度学习——注意力机制(Attention Mechanism):带掩码的多头注意力(Masked Multi-head Attention)

    分类目录:<深入理解深度学习>总目录 相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...

  8. 收藏 | 最新知识图谱论文清单(附解读、下载)

    来源:开放知识图谱 本文约9100字,建议阅读10+分钟. 解读今年顶会的知识图谱相关论文,带你快速了解知识图谱领域最新研究进展. 精选 6 篇来自 EMNLP 2018.COLING 2018.IS ...

  9. 最新知识图谱论文清单,就算看不懂也会忍不住收藏

    精选 6 篇来自 EMNLP 2018.COLING 2018.ISWC 2018 和 IJCAI 2018 的知识图谱相关工作,带你快速了解知识图谱领域最新研究进展. 本期内容选编自微信公众号「开放 ...

  10. 知识图谱最新权威综述论文解读:时序知识图谱部分

    从最近一两年有关知识图谱的顶会论文中可以发现,越来越多的国内外研究者开始关注动态时序知识图谱,可见时序知识图谱已经成为了一大研究趋势,相信之后会有更多相关研究出来.因此,这期我们对综述论文的时序知识图 ...

最新文章

  1. jS字符串大小写转换实现方式
  2. Python中Queue.get()方法阻塞
  3. 7.wait和waitpid
  4. Numpy高维数据的理解
  5. python中用于生成数字序列的函数_Python中的生成器?
  6. 代码英雄之云间战争:寡头时代,路在何方?
  7. python冒泡循环示例_Python循环示例–循环在python中
  8. leetcode(153)寻找旋转排序数组中的最小值
  9. 简便方法搭建Harbor镜像仓库
  10. 数据同步工具ETL-kettle使用
  11. Word 2010如何对论文中参考文献进行标注
  12. 【转】Matlab坐标修改及旋转
  13. 基本的计算机结构知识----基础向
  14. linux c语言文件锁,Linux下glibc库文件锁:协同锁(advisory lock)和强制锁(mandatory lock)...
  15. 储能系统下垂控制,蓄电池通过双向dc/dc变换器并联负载
  16. python序列解包_python中解包
  17. html5,jQuery 实现贴吧,论坛分页样式,可无缝组合Ajax
  18. 关于Python去掉字符串中的空格
  19. jq 一些提示框插件
  20. php中图片放大,jquery实现图片放大缩小特效

热门文章

  1. 手游用户数据分析平台
  2. 能上QQ不能上浏览器处理方法(win11版)
  3. js特效--移动的广告窗
  4. html页面内容不可复制粘贴,教你如何解决网页不能复制粘贴的问题
  5. 第七十三回 玄德进位汉中王  云长攻拔襄阳郡
  6. html文件在线打开word,html打开word程序 html直接打开word文档
  7. 遥感影像、DEM免费下载以及MPT制作
  8. 软件测试带宽低,性能测试分析之带宽瓶颈的疑惑
  9. android手机访问网站时 出现您未被授权查看该页 您试图访问的 Web 服务器上有一个不被允许访问该网站的 IP 地
  10. 特殊字符大全-希腊字母俄文注音拼音日文序集心型方形点数绘表(转载)