HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation

Abstract

由于GPU内存的限制，之前大多数的方法仅仅是在下采样图片上进行操作。但是下采样图片的低分辨率预测往往不能保存细粒度的细节。随机剪切一些高分辨率图片用来训练模型减轻了这个问题，但是不能够捕获大范围的，领域鲁棒的上下文信息。因此，作者提出了HRDA，应用于UDA的一种多分辨率训练方法，结合了小的高分辨率的crops的优点，来保存细粒度的分割细节,同时用大的低分辨率的crops，通过一个可学习的范围注意力机制来捕获大范围的上下文依赖。

Introduction

低分辨率的输入难以识别小的目标主体(远处的红绿灯等)以及细粒度的分割细节(远处行人的四肢)。如果全部使用高分辨率的图片输入，将会耗费特别多的GPU内存。一个常见的做法就是用随机裁剪的图片碎片来训练模型。引入HR的目的就是适应小的主体，保护分割细节。但是HR限制了学习大范围的上下文信息，这取决于裁剪块的大小。
总结来说：HR的优点：适应小的目标主体，保护分割细节。缺陷：忽略掉了一些上下文信息，包含了一些对UDA有害的过于细节的特征。LR的优点：可以学习到丰富的上下文信息。缺陷：忽略了一些分割细节。
为了将这两种方法的优势结合起来，并且维护一个可管理的GPU内存占用，作者提出了HRDA。第一步，HRDA使用一个大的LR crops来适应大的对象，而不混淆来自特定领域的HR 纹理，并学习大范围的上下文依赖，因为我们假设HR细节对大范围的上下文依赖并不重要。第二步，使用小的HR crops来适应小的目标主体并保存分割细节，我们假设大范围上下文信息在学习分割细节中只起从属作用。HRDA使用一个输入依赖的范围注意力机制来融合两者，注意力学习决定LR和HR预测在每个图像区域的可信度。最后，为了使HRDA适应目标域，可以用多个分辨率融合的伪标签进行训练。为了进一步提高细节伪标签相对于不同上下文的鲁棒性，我们使用重叠的滑动窗口机制生成了它们。
本文贡献:
(1) 系统学习了分辨率和裁剪块的大小的影响
(2) 利用率高分辨率的输入来适应小的目标主体和细粒度的分割细节
(3) 采用一个可学习的多分辨率融合的范围注意力机制来实现object-scale-dependent adaptation
(4) 融合了大的LR crops以捕获大范围的上下文信息和小的HR crops以捕获细节，以实现内存高效的UDA训练。

Preliminary

这里的第一个参数就是指输入的原始高分辨率图片，第二个参数中sTs_TsT是指原始高分辨率图片转换为低分辨率图片后，尺寸是原来的1/sTs_TsT倍。
首先在源域数据上通过交叉熵损失训练一个模型：

这里的qi,jq_{i,j}qi,j表示标签的置信度，因为是源域数据，标签置信度为1。H(y)表示标签的尺寸。
仅仅在源域上训练是不够的，我们在目标域上同样进行了训练。在这里作者使用自训练的方法DAFormer来评估HRDA的效果。
首先通过教师模型的预测来得到伪标签
计算总的损失，并更新教师模型：

更多的，DAFormer使用了consistency training，网络fθf_θfθ在通过DACS增广的目标域数据上训练，gθg_θgθ使用无增广的目标域图片来生成伪标签。除了自训练之外，DAFormer使用了一个domain-augment 的Transformer网络，稀有类采样，基于ImageNet特征的特征正则化。

Methods

用大的LR context crop去学大范围的上下文依赖，用小的HR detail crop来保存分割细节。

Context and Detail Crop

这里就是将输入的图片裁剪一下，然后将裁剪下来的高分辨率图片下采样成低分辨率样本xcx_cxc
裁剪边界框bcb_cbc从图像大小内的离散均匀分布中随机采样，同时确保坐标可以分为k=s·o，o≥1表示分割网络的输出步幅，以确保在以后的融合过程中精确对齐。

对于HR crop 是在LR crop中裁剪，方法相似:

在这项工作里，作者使用的context和detail crops用的相同的维度，hch_chc=hdh_dhd,wcw_cwc=wdw_dwd，来平衡这两种crop所需的资源，并在上下文感知和详细的预测之间提供良好的权衡。
这里使用了特征编码器f^E和一个语义解码器f^S,context和detail语义分割伪标签：

Multi-Resolution Fusion

HR detail crops 适合去适应小的主体，缺少捕获大范围依赖的能力，这与LR context crop相反。我们使用注意力机制来融合HR和LR crop，来预测某个区域使用context还是detail crop的预测比较合适。
注意力机制f^A学习去预测范围注意力aca_cac=来权衡LR上下文和HR细节预测的可信度。1代表使用HR detail crop，由于输出步幅o，预测小于输入，因此在以下步骤中相应地对crop坐标进行缩放。
通过将detail crop填充为零，将detail crop与（上采样）context crop对齐:

通过使用注意力权重和来融合多范围的预测:

编码器f^E,分割头部f^S,注意力头部f^A通过融合的多范围预测和detail crop 预测来训练:

对于伪标签预测，作者还利用了多分辨率融合。因此，在预测伪标签时，范围注意力机制关注的是更适合的分辨率(例如，对于小物体的HR)。由于伪标签也被进一步用于训练模型与更不适合的分辨率（例如，对于小对象的LR），它提高了对小对象和大对象的鲁棒性。

Pseudo-Label Generation with Overlapping Sliding Window

作者通过教师网络来给目标域样本生成伪标签p^T_c,F