DAFormer: Improving Network Architectures and Training Strategies for Domain-Adaptive Semantic Segme

DAFormer: Improving Network Architectures and Training Strategies for Domain-Adaptive Semantic Segmentation

Abstract

DAFormer包含一个Transformer编码器和一个多级别的上下文感知的特征融合解码器。使用了三种策略来稳定训练和避免源域数据的过拟合。(1) 源域数据上的稀有类采样，通过减缓自训练过程中模型对源域数据一些普通类的过拟合来提高伪标签质量。(2)一个Thing-Class图像网络特征距离。(3) 一个学习率预热机制。

Introducton

Thing-Class ImageNet Feature Distance(FD):从多种多样的图片网络特征中蒸馏出知识来规范化源域数据上的训练。

Methods

Self-Training(ST) for UDA

首先介绍baseline的UDA方法: (1) 利用源域数据训练模型

(2) 使用教师网络来获取伪标签和标签质量估计:

(3) 通过目标域数据的伪标签以及伪标签质量估计来训练模型:

(4)更新教师模型:

其中学生模型在增强的目标域图片上训练，教师网络在无增强的目标域图片上生成伪标签。

DAFormer Network Architecture

DAFormer是专门为UDA设计的模型，不仅获得了好的监督表现，而且提供了好的域适应能力。
虽然Transformer的自注意和卷积都是加权和，但它们的权值计算方式不同:在cnn中，权值在训练中学习，但在测试中固定；在自注意机制中，权值是基于每对标记之间的相似性或亲和性动态计算的。因此，自注意机制中的自相似性操作提供了可能比卷积操作更具有自适应性和通用性的建模手段。(暂时没理解)
跟随MiT的做法，将图片分成4*4的小块，为了保留语义分割的细节。为了解决高维特征的精度问题，在自注意力模块中采用了sequence reduction的方法。transformer的编码器就是设计用来产出多级别的特征图。下采样特征图采用了overlapping patch merging的方法来保护局部的连续性。
先前的在语义分割上使用的基于Transformer的方法的解码器通常是仅仅利用了局部的信息。相反的，作者提出了在解码器上利用额外的上下文信息，提高了鲁棒性。DAFormer不仅仅考虑瓶颈特性的上下文信息，而是使用不同编码器级别的特性的上下文，因为附加的早期特性为高分辨率的语义分割提供了有价值的低级概念，这也可以提供重要的上下文信息。在特征融合之前，作者通过1×1的卷积层将每个F_i嵌入到具有相同通道数量的C_e中。双线性上采样将特征大小采样回F₁的大小,并将它们连接起来。对于上下文感知的特征融合，作者使用多重平行的3×3的具有不同膨胀率的深度可分离卷积层和一个1×1的卷积层来融合它们，类似于ASPP但是没有全局平均池化层。与起初的ASPP的使用相反，作者不仅将它应用在瓶颈特征F₄上，而且将它应用到融合栈中所有的多级别的特征。深度可分离卷积层的优点是相对于常规的卷积层，有更少的参数，可以减少对源域的过拟合。

Training Strategies for UDA

Rare Class Sampling(RCS)

作者认为稀有类在训练过程中出现的越晚，它的表现就越差。
RCS就是更加频繁的在源域中采样一些包含稀有类别的图片，为了使它们被学的更好，更早。计算频繁度f_c:

然后开始计算采样概率:

T是一个温度系数，用来控制分布的平滑度

Thing-Class ImageNet Feature Distance(FD)

对于使用的分割模型的初始化参数是在ImageNet数据集上训练得出的。ImageNet也包含一些真实世界的图片，对于UDA的模型很难分辨一些类(bus和car)等，作者假设ImageNet的特征可以提供一些平常预训练涉及不到的有用的指导。作者观察到，在训练的开始阶段，模型可以分辨一些类，但是训练了几百轮后，模型就忘记了这些知识。作者猜测有用的特征被L_S和模型对合成数据的过拟合破坏掉了。
为了解决这个问题，作者基于语义分割UDA模型g_θ的瓶颈特征F_θ和ImageNet模型的瓶颈特征F_ImageNet的特征距离（FD）对模型进行了正则化处理。

ImageNet的模型大部分是在thing-classes(有明确的形状的)上训练的，而不是stuff-classes类(包含路面还有天空)。因此在算FD loss的时候需要使用M_thing来屏蔽掉一些类。

为了将标签下采样到瓶颈特征大小，对每个类通道应用补丁大小H/H_F×W/W_F的平均池化，当类超过比值r时保留一个类。

这确保了只考虑特征距离中包含主导事物类的瓶颈特征像素。
总的损失:

Learning Rate Warmup for UDA

根据迭代次数t_warm,升温学习率: