HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation

Abstract

  由于GPU内存的限制,之前大多数的方法仅仅是在下采样图片上进行操作。但是下采样图片的低分辨率预测往往不能保存细粒度的细节。随机剪切一些高分辨率图片用来训练模型减轻了这个问题,但是不能够捕获大范围的,领域鲁棒的上下文信息。因此,作者提出了HRDA,应用于UDA的一种多分辨率训练方法,结合了小的高分辨率的crops的优点,来保存细粒度的分割细节,同时用大的低分辨率的crops,通过一个可学习的范围注意力机制来捕获大范围的上下文依赖。

Introduction

  低分辨率的输入难以识别小的目标主体(远处的红绿灯等)以及细粒度的分割细节(远处行人的四肢)。如果全部使用高分辨率的图片输入,将会耗费特别多的GPU内存。一个常见的做法就是用随机裁剪的图片碎片来训练模型。引入HR的目的就是适应小的主体,保护分割细节。但是HR限制了学习大范围的上下文信息,这取决于裁剪块的大小。
  总结来说:HR的优点:适应小的目标主体,保护分割细节。缺陷:忽略掉了一些上下文信息,包含了一些对UDA有害的过于细节的特征。LR的优点:可以学习到丰富的上下文信息。缺陷:忽略了一些分割细节。
  为了将这两种方法的优势结合起来,并且维护一个可管理的GPU内存占用,作者提出了HRDA。第一步,HRDA使用一个大的LR crops来适应大的对象,而不混淆来自特定领域的HR 纹理,并学习大范围的上下文依赖,因为我们假设HR细节对大范围的上下文依赖并不重要。第二步,使用小的HR crops来适应小的目标主体并保存分割细节,我们假设大范围上下文信息在学习分割细节中只起从属作用。HRDA使用一个输入依赖的范围注意力机制来融合两者,注意力学习决定LR和HR预测在每个图像区域的可信度。最后,为了使HRDA适应目标域,可以用多个分辨率融合的伪标签进行训练。为了进一步提高细节伪标签相对于不同上下文的鲁棒性,我们使用重叠的滑动窗口机制生成了它们。
本文贡献:
(1) 系统学习了分辨率和裁剪块的大小的影响
(2) 利用率高分辨率的输入来适应小的目标主体和细粒度的分割细节
(3) 采用一个可学习的多分辨率融合的范围注意力机制来实现object-scale-dependent adaptation
(4) 融合了大的LR crops以捕获大范围的上下文信息和小的HR crops以捕获细节,以实现内存高效的UDA训练。

Preliminary


  这里的第一个参数就是指输入的原始高分辨率图片,第二个参数中sTs_TsT​是指原始高分辨率图片转换为低分辨率图片后,尺寸是原来的1/sTs_TsT​倍。
首先在源域数据上通过交叉熵损失训练一个模型:

这里的qi,jq_{i,j}qi,j​表示标签的置信度,因为是源域数据,标签置信度为1。H(y)表示标签的尺寸。
  仅仅在源域上训练是不够的,我们在目标域上同样进行了训练。在这里作者使用自训练的方法DAFormer来评估HRDA的效果。
  首先通过教师模型的预测来得到伪标签
计算总的损失,并更新教师模型:


  更多的,DAFormer使用了consistency training,网络fθf_θfθ​在通过DACS增广的目标域数据上训练,gθg_θgθ​使用无增广的目标域图片来生成伪标签。除了自训练之外,DAFormer使用了一个domain-augment 的Transformer网络,稀有类采样,基于ImageNet特征的特征正则化。

Methods


用大的LR context crop去学大范围的上下文依赖,用小的HR detail crop来保存分割细节。

Context and Detail Crop


这里就是将输入的图片裁剪一下,然后将裁剪下来的高分辨率图片下采样成低分辨率样本xcx_cxc​
裁剪边界框bcb_cbc​从图像大小内的离散均匀分布中随机采样,同时确保坐标可以分为k=s·o,o≥1表示分割网络的输出步幅,以确保在以后的融合过程中精确对齐。

对于HR crop 是在LR crop中裁剪,方法相似:

  在这项工作里,作者使用的context和detail crops用的相同的维度,hch_chc​=hdh_dhd​,wcw_cwc​=wdw_dwd​,来平衡这两种crop所需的资源,并在上下文感知和详细的预测之间提供良好的权衡。
  这里使用了特征编码器fE和一个语义解码器fS,context和detail语义分割伪标签:

Multi-Resolution Fusion

  HR detail crops 适合去适应小的主体,缺少捕获大范围依赖的能力,这与LR context crop相反。我们使用注意力机制来融合HR和LR crop,来预测某个区域使用context还是detail crop的预测比较合适。
  注意力机制fA学习去预测范围注意力aca_cac​=来权衡LR上下文和HR细节预测的可信度。1代表使用HR detail crop,由于输出步幅o,预测小于输入,因此在以下步骤中相应地对crop坐标进行缩放。
通过将detail crop填充为零,将detail crop与(上采样)context crop对齐:

通过使用注意力权重和来融合多范围的预测:

编码器fE,分割头部fS,注意力头部fA通过融合的多范围预测和detail crop 预测来训练:

对于伪标签预测,作者还利用了多分辨率融合。因此,在预测伪标签时,范围注意力机制关注的是更适合的分辨率(例如,对于小物体的HR)。由于伪标签也被进一步用于训练模型与更不适合的分辨率(例如,对于小对象的LR),它提高了对小对象和大对象的鲁棒性。

Pseudo-Label Generation with Overlapping Sliding Window

  作者通过教师网络来给目标域样本生成伪标签pTc,F

HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation相关推荐

  1. Deliberated Domain Bridging for Domain Adaptive Semantic Segmentation

    Deliberated Domain Bridging for Domain Adaptive Semantic Segmentation Abstract   许多UDA的工作就是尝试通过各种中间空 ...

  2. SePiCo: Semantic-Guided Pixel Contrast for Domain Adaptive Semantic Segmentation

    SePiCo: Semantic-Guided Pixel Contrast for Domain Adaptive Semantic Segmentation Abstract   之前的许多方法尝 ...

  3. CVPR2022自适应/语义分割:Class-Balanced Pixel-Level Self-Labeling for Domain Adaptive Semantic Segmentation

    CVPR2022自适应/语义分割:Class-Balanced Pixel-Level Self-Labeling for Domain Adaptive Semantic Segmentation用 ...

  4. Adversarial Semantic Hallucination for Domain Generalized Semantic Segmentation

    摘要 当测试数据和训练数据来自不同的领域时,卷积神经网络可能表现不佳.虽然可以通过使用目标域数据对齐源和目标域特征表示来缓解这个问题,但由于隐私问题,目标域数据可能不可用.因此,需要在训练期间不访问目 ...

  5. Domain Adaptive Video Segmentation viaTemporal Pseudo Supervision

    摘要在大量标注训练数据的监督下,视频语义分割取得了很大的进展.然而,域自适应视频分割,通过从标记的源域适应到未标记的目标域,可以减轻数据标签的约束,在很大程度上被忽视了.我们设计了时间伪监督(TPS) ...

  6. 遥感-Deep Covariance Alignment for Domain Adaptive Remote Sensing Image Segmentation域自适应遥感图像分割中深度协方差对齐

    Deep Covariance Alignment for Domain Adaptive Remote Sensing Image Segmentation域自适应遥感图像分割中的深度协方差对齐 0 ...

  7. 语义分割-Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述

    Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述 0.摘要 1.介绍 1.1.语义分割 ...

  8. AAAI 2022主题论文推荐——Semantic Segmentation

    AAAI是具有重要影响力的国际学术组织,由计算机科学和人工智能领域奠基人Allen Newell.Marvin Minsky.John McCarthy等学者于1979年共同创立,旨在推动智能思维与行 ...

  9. 【论文合集】RGBD Semantic Segmentation

    来源:GitHub - Yangzhangcst/RGBD-semantic-segmentation: A paper list of RGBD semantic segmentation (pro ...

  10. 【RedNet2018】RedNet: Residual Encoder-Decoder Network for indoor RGB-D Semantic Segmentation

    RedNet: Residual Encoder-Decoder Network for indoor RGB-D Semantic Segmentation RedNet: 用于室内RGB-D语义分 ...

最新文章

  1. 「SAP技术」SAP WM 如何根据TR号码查询TO号码?
  2. 三、前端开发-CSS
  3. 1130 Infix Expression (25 分)【难度: 一般 / 知识点: 中序遍历】
  4. 司机和售票员问题 信号signal注册一例
  5. mysql如何修改所有的definer
  6. vuecli打包后的dist目录无法访问_听说很多人都不会打包,教你Python实现前端自动化打包部署!...
  7. 云安全联盟发布更新版安全应用指南
  8. SpringHttpInvoker解析2-服务端实现
  9. 阿里技术专家麒烨:修炼测试基本功
  10. 详解恶意软件 XcodeSpy 如何针对 iOS 开发人员展开供应链攻击
  11. java被oracle收购,sun被oracle收购了,openoffice和virtualbox会不会死?
  12. android studio 2.2 preview 3,Android Studio 2.2 Preview 3 发布,优化图片支持
  13. 3dsMax学习笔记06_用VRayMtl材质制作室外雕塑
  14. 全国青少年计算机考试官网,全国青少年计算机考试开考 每年组织四次
  15. 不仅仅是土豆_设计成功不仅仅需要设计技能
  16. 垃圾短信分类java_有了这个神器,快速告别垃圾短信邮件
  17. HTML表格和样式及选择器
  18. Inversion of Java Interview - 计算机网络篇
  19. 矢量计算机和标量计算机
  20. 海思3516DV300对接IMX327-60fps

热门文章

  1. element修改el-table 表头的背景颜色横向渐变色 + 修改表头背景颜色
  2. 史蒂芬·平克:追求理性
  3. 英语学习-that和which区别
  4. 杜克大学计算机专业本科入学条件,杜克大学本科申请条件有哪些?
  5. 使用 django-blog-zinnia 搭建个人博客
  6. power bi导入文件夹_从Power BI Desktop中的PDF文件导入数据
  7. 程序员不愿意加班的真相
  8. 《水浒传》同样是在朝廷混过的人没什么武松和宋江对招安的看法完全不用?
  9. MFC对话框与基础控件个性化
  10. Problem - 1696D - CodeforcesD. Permutation Graph