作者 | Garfield 编辑 | 极市平台

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心[【语义分割】技术交流群

后台回复【分割综述】获取语义分割、实例分割、全景分割、弱监督分割等超全学习资料!

导读

在本文中,所提出的方法名为Token Contrast(ToCo),该方法用于提高使用图像级标签的弱监督语义分割的性能。ToCo 解决了ViT的over-smoothing问题,并进一步探索了它在 WSSS 中的潜力。

原文链接:https://arxiv.org/abs/2303.01267

代码链接:https://github.com/rulixiang/ToCo

1. 引言

弱监督语义分割是一种利用更简单易得的图像级标注,以训练分类模型的方式获取物体的种子分割区域并优化,从而实现图像的像素级、密集性预测。这种方法在训练时使用弱监督信息作为监督信息,训练得到的分割图作为测试阶段的监督信息(在测试阶段用全监督)。

  • 弱监督语义分割和全监督语义分割的区别在于,弱监督语义分割使用的是更简单易得的图像级标注,以训练分类模型的方式获取物体的种子分割区域并优化,从而实现图像的像素级、密集性预测。而全监督语义分割则需要对每个像素进行标注,需要更多的人力和时间成本。

  • 弱监督语义分割和半监督语义分割的区别在于,半监督语义分割是在训练时使用少量的像素级标注数据和大量的未标注数据,以提高模型的性能。

以前使用 CAM 为弱监督语义分割生成伪标签的方法存在缺陷,因为它们只能识别判别区域,从而导致性能不佳。最近的研究提议使用 Vision Transformer 架构对全局特征交互进行建模并生成更准确的伪标签。但是ViT的self-attention中的过度平滑(over-smoothing)问题会导致patch token都是1(这样就是均匀分布了),完成 WSSS的任务就能加困难了。这一问题在最近的工作中尚未被解决。

在本文中,所提出的方法名为Token Contrast(ToCo),该方法用于提高使用图像级标签的弱监督语义分割(WSSS)的性能。ToCo 解决了 Vision Transformer (ViT) 的over-smoothing问题,并进一步探索了它在 WSSS 中的潜力。引入了两个模块:Patch Token Contrast (PTC) 和Class Token Contras (CTC),以提高 CAM 的准确性。Patch Token Contrast (PTC) 模块使用来自中间层的伪代币关系来监督最终的补丁令牌,从而使它们能够对齐语义区域,从而产生更准确的 CAM。Class Token Contrast (CTC) 模块通过对比不确定的局部区域和全局对象的类标记来促进其表示一致性。CTC 利用 ViT 中类代币捕获的高级语义,帮助区分 CAM 中的低可信度区域。这些实验是在PASCAL VOC和MS COCO数据集上进行的,以证明所提出的方法的有效性。

2. 方法

本文的方法如上图所示,下面来看主要的两个点:

2.1 Patch Token Contrast

Patch Token Contrast实际上就是通过CAM的机制来解决过度平滑的问题:

Patch Token Contrast (PTC) 是通过利用 Vision Transformer (ViT) 中间层的可靠的伪 token 关系来监督最终的 patch tokens,从而解决了最终 patch tokens 的过度平滑问题。PTC 模块可以保留 patch tokens 的语义多样性,通过中间层的伪 token 关系来监督最终的 patch tokens,使它们能够对齐语义区域,从而产生更准确的 Class Activation Map (CAM)。所以设计了如下的loss function:

设计Patch Token Contrast(PTC)模块的动机是解决弱监督语义分割(WSSS)的Vision Transformer(ViT)中最终token的over-smoothing的问题。PTC 模块使用来自中间层的伪标签关系来监督最终的token。这是因为中间层仍然可以保留token的语义多样性。通过利用来自中间层的知识,即可靠的配对代币关系,PTC 可以监督最终token以调整语义区域,从而生成更准确的CAM。

2.2 Class Token Contrast

Class Token Contrast (CTC) 模块是通过对比不确定的局部区域和全局对象的类别token来促进其表示一致性。CTC 模块的灵感来自于 ViT 中的token可以捕获高级语义这一事实。它利用 ViT 中token捕获的高级语义,有助于区分类激活映射 (CAM) 中的低可信度区域。采用以下的loss function进行优化:

给定图像,CTC 模块首先从其辅助 CAM 指定的不确定区域中随机裁剪局部图像。由于 ViT 中的token捕获了语义对象的信息,因此全局和局部图像的token分别聚合了全局和局部对象的信息。然后,CTC 模块通过对比其class token来促进局部非突出区域和全局对象之间的表示一致性。这有助于强制在 CAM 中激活更多物体区域,从而提高分割的准确性。

3. 实验

本文的文献调查侧重于使用图像级标签的弱监督语义分割(WSSS)。作者讨论了类激活图(CAM)在识别完整物体区域方面的局限性,这是由于CNN的局部结构感知造成的。他们还提到了最近为解决这一限制而提出的各种训练方案,例如擦除、online attention积累和跨图像语义挖掘。作者提出了一种名为Token Contrast(ToCo)的新方法,该方法利用Vision Transformer(ViT)架构来解决CAM和CNN对WSS的局限性。他们引入了两个新模块,补丁代币对比(PTC)和类别代币对比(CTC),以提高分割的准确性。作者对 PASCAL VOC 和 MS COCO 数据集进行了实验,结果表明 ToCo 的表现优于其他相似情况的方法,并且使用最先进的多阶段方法实现了很优越的性能。

可以发现在语义分割上也有较好的性能。

可视化对比也可以发现本文提出的ToCo的CAM图更接近于理想中的attention状态。

4. 讨论

本文的贡献是:

  • 提出一种名为Token Compare(ToCo)的方法,以提高使用图像级标签的弱监督语义分割(WSSS)的性能。

  • 解决ViT的过度平滑问题,进一步探索其在 WSSS 中的潜力。

  • 引入两个模块:补丁代币对比 (PTC) 和类别代币对比 (CTC),以提高 CAM 的准确性。

  • 对 PASCAL VOC 和 MS COCO 数据集进行实验,以证明所提方法的有效性。

  • 提出未来的工作建议,以改进所提出的方法并将其适用性扩展到其他相关任务。

然而本文也有局限性:它只关注使用图像级标签的 WSSS,不考虑其他类型的薄弱监督,例如涂鸦注释或边框注释。此外,所提出的方法需要预先训练的 ViT 模型,而某些用户可能不容易使用该模型。最后,实验仅在两个数据集上进行,将所提出的方法推广到其他数据集还有待探索。

该论文提出了几项未来的工作来改进所提出的方法。这些包括:-

  • 探索 ToCo 在其他计算机视觉任务中的潜力,例如物体检测和实例分割。

  • 研究 ToCo 在其他基于Transformer的模型(例如 Swin Transformer 和 CAiT)上的有效性。

  • 在 ToCo 框架中加入其他信息,例如物体大小和形状,以进一步提高 WSSS 的准确性。

  • 探索使用 ToCo 执行半监督或全监督语义分割任务的可能性。未来的这些工作有可能提高提出方法的性能,并将其适用性扩展到其他相关任务。

5. 结论

本文提出了一种名为令牌对比(ToCo)的新方法,用于使用图像级标签进行弱监督语义分割(WSSS)。ToCo 利用 Vision Transformer (ViT) 架构,引入了两个新模块,即Patch Token Contrast (PTC) 和Class Token Contrast (CTC),以解决CAM和 ViT 的局限性。对PASCAL VOC和MS COCO数据集的实验表明,ToCo的表现优于其他单级竞争对手,并且使用最先进的多阶段方法实现了可比的性能。与CNN方法和最近的单级WSSS方法,即AFA相比,所提出的方法可以显著产生更积分和更准确的CAM。与 ViT 基线相比,ToCo 还能很好地解决过度平滑的问题。

视频课程来了!

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频,欢迎大家自取(扫码进入学习)

(扫码学习最新视频)

国内首个自动驾驶学习社区

近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

CVPR'23|打破CAM局限性!ToCo:激发ViT在弱监督分割的潜力相关推荐

  1. CVPR 2022 | 利用域自适应思想,北大、字节跳动提出新型弱监督物体定位框架

    ©作者 | 朱磊 来源 | 机器之心 将弱监督物体定位看作图像与像素特征域间的域自适应任务,北大.字节跳动提出新框架显著增强基于图像级标签的弱监督图像定位性能. 物体定位作为计算机视觉的基本问题,可以 ...

  2. 【CVPR 2020】化繁为简,弱监督目标定位领域的新SOTA - 伪监督目标定位方法(PSOL)...

    论文提出伪监督目标定位方法(PSOL)来解决目前弱监督目标定位方法的问题,该方法将定位与分类分开成两个独立的网络,然后在训练集上使用Deep descriptor transformation(DDT ...

  3. CVPR 2021 | 北大MSRA提出CPS:基于交叉伪监督的半监督语义分割

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:Charles  |  源:知乎 https://zhuanlan.zhihu.com/p/37812 ...

  4. CVPR'23 | 结合Transformer和CNN的多任务多模态图像融合方法

    作者 | 奥本海默 编辑 | 汽车人 原文链接:https://zhuanlan.zhihu.com/p/617936182 点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷 ...

  5. CVPR‘23投稿量再创新高? CCF会议投稿量大比拼, 谁才是卷王?

    根据轻松参会CVPR2023交流群群友的反馈,CVPR2023初步统计有效投稿数为9155(不含desk reject),投稿数再创历史新高. 尼谟统计了300余个CCF推荐会议共计3900多条数据, ...

  6. [CVPR‘23] Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

    paper: https://arxiv.org/abs/2212.06135 总结:提出一种基于扩散模型和tri-plain features的3D虚拟人像生成方法.该方法包含多个模型,需要多次训练 ...

  7. [CVPR‘23] PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360 deg

    论文|项目 总结: 任务:3D human head synthesis 现有问题:GANs无法在「in-the-wild」「single-view」的图片情况下,生成360度人像 解决方案:1)提出 ...

  8. 何恺明一作MAE收录CVPR 2022 Oral!高达87.8%准确率!自监督领域新代表作

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:happy   |  转载自:极市平台 导读 何恺明提出一种用于计算机视觉的可扩展自监督学习方案Mas ...

  9. 【CVPR 2020】弱监督怎样做图像分类?上交大提出自组织记忆网络

    点击上方"视学算法",选择"星标"公众号 重磅干货,第一时间送达 本文转载自机器之心 近日,计算机视觉顶会 CVPR 2020 接收论文结果公布,从 6656 ...

最新文章

  1. php 取多级分类,php – 获取所有类别(多级)
  2. 日期格式php用点隔离,PHP学习之校验日期格式合法性?(使用strtotime()和date())...
  3. php发送验证图片,php生成图片验证码_PHP教程
  4. 【script】python3使用http.server搭建简易web服务
  5. C语言之局部变量全局变量变量存储方式
  6. linux ctrl c 子进程,ctrl c会向Linux中的父进程和子进程发送SIGINT信号吗?
  7. git使用笔记(二)分支与合并
  8. JavaScript之jQuery
  9. 西门子s7-200解密软件下载_高邮哪里有西门子三菱PLC编程学习班?多久能学会?...
  10. 中国IP网通IP地址段
  11. 18个基于Web的代码开发编辑器
  12. ASP.NET MVC Flash 在线拍照
  13. FPS之游戏透视原理(一)
  14. 计算机科学考研难不难,计算机考研有多难
  15. 查验身份证 pat-1031
  16. 2021年10月程序员薪资出炉,你在哪个层级?
  17. AS179-92LF pHEMT GaAs FET单刀双掷(SPDT)开关SKYWORKS
  18. 语音识别之前端处理及相关算法
  19. 202302|读书笔记——国图点滴
  20. oracle中distance用法,distance的用法和短语例句

热门文章

  1. 中国邮政java面试_中国邮政C笔试题
  2. 钱星宇_2022-12-2
  3. oracle设置主键自增(超简单)
  4. ArcPy批量化入门篇
  5. 基于神经网络的图像分割,图像识别神经网络算法
  6. 我的目标,我的梦想,我的坚持---给自己一个见证
  7. 数据库批量操作中SqlParameter参数传递的问题
  8. 开店攻略: 婴幼儿用品店导购培训,培训什么?
  9. 记2016年随手记的一次面试
  10. 《支撑处理器的技术——永无止境地追求速度的世界》图书信息