IEEE2022/遥感:Stagewise UnsupervisedDomain Adaptation WithAdversarial Self-Training for Road Segmentation of Remote-Sensing Image基于阶段无监督域自适应对抗自训练的遥感图像道路分割

  • 0.摘要
  • 1.概述
  • 2.方法
    • 2.1.概述
    • 2.2.域间自适应
    • 2.3.对抗性自训练
  • 2.4.应用细节
  • 3.实验

论文下载
开源代码

0.摘要

遥感图像道路分割是一项具有挑战性的任务,具有广泛的应用潜力。深度神经网络利用大规模标记数据的力量推进了这一领域,然而,获取这些数据非常昂贵和耗时。一种解决方案是使用廉价的可用数据来训练模型,并将其部署到直接处理来自特定应用领域的数据。然而,众所周知的领域转移(DS)问题阻止了训练模型在目标领域上的良好泛化。在本文中,我们提出了一种新的阶段域适应模型,称为RoadDA,以解决该领域的DS问题。在第一个阶段,RoadDA通过基于生成对抗网络(GANs)的域间适应,使目标域特征与源域特征保持一致。设计了一种特征金字塔融合模块,避免了狭长道路的信息丢失,并学习了判别性和鲁棒性特征。此外,为了解决目标域的域内差异,在第二阶段,我们提出了一种对抗性的自训练方法。我们使用训练好的生成器生成目标域的伪标签,并根据道路置信度得分将其划分为易分割和难分割。通过对抗性学习,将硬分割特征与易分割特征相结合,并重复域内适应过程,逐步提高分割性能。两个基准测试的实验结果表明,RoadDA可以有效地减少域间隙,并优于最先进的方法。

1.概述

直接应用基于源域训练的道路分割模型来推断目标道路图像可能会遇到显著的性能下降。这是由训练图像和测试图像之间的领域转移(DS)引起的,因为这些图像可能有不同类型的路面(未铺设的,铺设的,土路),农村和城市背景区域,等等。因此,寻找一种合适的技术来解决ds问题,并利用现有的标记道路数据对目标RS图像进行自动道路分割,而不需要人工标记,具有重要的意义。
近年来,无监督域适应(unsupervised domain adaptation, UDA)[16],[17]被引入来解决这一问题。UDA利用标记数据在一个或多个相关源域中使用未标记数据在目标域中执行新任务,旨在缓解DS。虽然UDA在遥感图像分类任务[18],[19]中得到了广泛的研究,但在道路分割方面却鲜有研究。最近的对抗空间金字塔网络(ASPN)[20]将随机噪声作为合成数据引入源域,并对源域和目标域的输出空间进行对抗域自适应。然而,现有的UDA道路分割方法既没有利用伪标签对目标数据进行微调以提高分割模型的性能,也没有解决数据采集过程中可能导致的目标域内差异问题。作为半监督学习的一种特殊技术,自训练[21]可以作为UDA的一种有效策略。具体来说,它从分类器中生成未标记目标数据的伪标签,并利用它们对模型进行微调,从而使模型适应目标域。此外,改进后的模型可用于伪标签的更新,该过程可重复使用以提高性能。

图2所示。概述我们提出的RoadDA方法,它包括两个阶段。在域间适应阶段,给定源数据和未标记的目标数据,一个配备了专门设计的FPFM的分割模型作为生成器来预测分割结果。鉴别器被训练来区分输入的域标签,而生成器的目的是为源域和目标域生成相似的分布来欺骗鉴别器。在对抗自训练阶段,我们利用训练好的模型预测目标区域图像的分割映射。该方法通过计算道路置信度得分并对其进行排序,并将其作为伪标签分配给目标样本,从而挖掘目标样本。这些伪标签用于帮助调整未标记的硬分裂到容易的分裂,从而减少域内差异。通过重复伪标签生成和域内适应,逐步提高分割模型的性能。

在这些技术的启发下,我们提出了一种新的阶段式UDA框架,称为RoadDA,用于遥感图像的道路分割。RoadDA由域间适应和对抗性自训练两个阶段组成,如图2所示。在第一阶段,给定标记的源数据和未标记的目标数据,分割模型作为生成器产生分割预测,而域间鉴别器预测这些分割预测的域标签。通过优化源域的分割损失和域间对抗性损失,使目标域与源域在输出级对齐。此外,设计了一种特征金字塔融合模块(FPFM),避免了狭长道路的信息丢失,并学习了判别性和鲁棒性特征。在第二阶段,为了解决目标域的域内差异,进一步提高分割性能,我们设计了对抗性自训练方案。利用前一阶段训练的分割模型生成目标域图像的伪标签。由于道路信息是道路分割中最重要的先验知识,因此,道路伪标签的预测质量受到越来越多的关注。因此,这些伪标签由质量估计器根据道路像素的置信度评分进行检查。将保留的伪标签及其对应的图像作为容易分割,而将目标域内的左侧图像作为未标记的硬分割。同样,我们在第一阶段使用相同的技术,通过调整硬分割的分布来缓解域内间隙。此外,我们设计了一个渐进式训练方案,从训练好的分割模型迭代更新伪标签,然后用它们再训练分割模型。在推断阶段,只使用第二阶段的自适应分割模型进行道路分割,不需要额外的计算量。

2.方法

2.1.概述

我们的方法旨在利用UDA和自训练技术提高对未标记目标数据的道路分割性能。如图2所示,RoadDA由两个阶段组成:域间适应阶段和对抗自训练阶段。在第一阶段,构造了一个配备了专门设计的FPFM的GAN,以减少标记源域和未标记目标域之间的DS。在第二阶段,我们利用训练好的生成器预测目标域的伪标签,然后根据道路置信度分数将目标域划分为易分割和难分割。采用基于对抗性学习的域内自适应算法对训练生成的目标域进行微调,减小域内差异。我们采用微调生成器获得更准确的伪标签,并使用它们进行进一步的域内适配。这个过程是迭代,逐步提高分割性能,直到饱和。在推断阶段,只使用自适应生成器进行道路分割

2.2.域间自适应

域间适配是由GAN架构实现的。输入为已标记的源数据(Xs,Ys)和未标记的目标数据(Xt),其中,Xs,Xt∈RH×W×3,andYs∈(0,1)H×W(0为背景像素,1为道路像素)。一个分割模型作为生成器Ginter预测源图像和目标图像的分割概率图Ps=Ginter(Xs),Pt=Ginter(Xt)(Ps,Pt∈RH×W×2)。高维的高级语义特征作为在分割过程中学习到的中间表示,实际上具有复杂的隐式语义。因此,在特征级别执行域对齐可能不太有效,并且不能保证域之间的连接标签分布是对齐的。源图像和目标图像的二值分割预测在背景和布局上具有较强的相似性。因此,我们采用一种对抗性学习方案,在输出水平上对准目标域和源域。我们将预测结果Ps,Pt发送至鉴别器Dinter作为输入来正确预测它们的域标签,而生成器Ginter被训练试图混淆Dinter,也就是说,生成器Ginter被鼓励在目标域和源域上生成相似的预测分布。
在这里,我们描述生成器Ginter的训练过程。对于鉴别器,给定源域和目标域Ps,Pt的分割预测,训练完全卷积鉴别器对输入样本的域标签进行分类。在此,我们人为地将源域样本的标签设为1,目标域样本的标签设为0,从而利用二元交叉熵(CE)域分类损失优化判别器。鉴别器的原始CE损耗公式为:

当s=1, t=0时,可以写成

对于生成器Ginter的训练,它包含两部分。首先,将源域分割损失,即CE-Loss

其中源域labele被转换为独热向量形式,并表示类的数量。定义目标图像的对抗损失为

根据该对抗策略,取与判别符相反的=1,则可将对抗损失改写为

这种损失迫使生成器在目标域上产生类似源的分布来欺骗鉴别器,最后模型达到平衡状态。综上所述,生成器的最终训练目标为

其中α表示损失权重,以平衡两种损失。
在训练过程中,我们利用(2)和(6)中的损失函数交替优化Dinter和Ginter,而在推理中,只使用分割模型(Generator)进行道路分割。
特征金字塔融合模块:在GAN框架中,全卷积分割模型作为生成器,骨干网为ResNet-101[42]。让ResNet-101提取的层次特征记为[C1,C2,C3,C4,C5],其中对应的降采样率为[2,4,8,16,32]。高降采样率的初衷是为了减少特征的大小和计算成本,提高特征的鲁棒性。然而,在不同的场景下,高的降采样率会导致长细道路的空间信息丢失,从而影响对不同域数据的最终道路分割性能。相比之下,如果我们在深层保持较高的分辨率,例如使用降采样率集[2,4,8,8,8],会减小模型的有效接收域,增加深层的计算成本。为了更好地处理源域和目标域的各种场景,我们设计了融合多层次和多尺度道路特征的fpfm。如图3所示,我们通过设置ResNet101中第四个阶段的步长为1,采用降采样率集[2,4,8,8,16],并选择特征C4和C5作为输入到ASPP模块[43],以在不同的水平上生成全局上下文特征C*4和C*5。然后,我们将C*5上采样增加到与C*4相同的大小,并将它们加在一起以显式地增强特征表示能力,并在下采样率8处生成鲁棒的融合特征

2.3.对抗性自训练

经过域间适应阶段的训练,我们得到了自适应的分割模型,与仅在源域(source-only)上训练的模型相比,该模型的性能有了较大的提高。然而,根据我们的观察,由于光照条件和背景背景的不同,目标区域可能存在域内差异。因此,我们提出了基于对抗学习的自训练阶段,以进一步提高目标域上的分割性能。这个阶段由三个部分组成:领域内的划分、领域内的适应和自我训练。

  • 领域内的划分

为了解决目标域的域内差异,需要将其分解为两部分,并减小它们之间的差异。为此,我们提出了质量评估人员来完成这项任务。受到在源域上训练的分割模型在目标域上性能会下降的观察启发,我们使用自适应的分割模型-预测目标域的分割映射,并相应地将目标域分为易分割和难分割。具体来说,我们设计了一个质量估计器来估计预测结果的道路置信度分数,并根据这些分数对预测结果进行排序。最后,目标图像被分割成一个简单的带有伪标签的分割Xte和一个未标记的硬分割Xth
Pt=Ginter(Xt)表示目标图像的预测分割图,Pti,j表示位置(i,j)的道路概率。Mt表示预测的二进制掩码(伪标签)。当(i,j)的概率大于0.5,像素被预测为道路时,否则,它等于0。由于我们关注道路像素,而不是大量可能导致估计偏差的背景像素,所以我们过滤掉背景,计算预测的置信度得分如下:

即每幅图像中所有预测道路像素置信度的平均值。然后,我们根据他们的Scf分数降序对目标图像进行排序,并使用超参数λ∈(0,1)作为一个比率,将排序的目标图像分成一个容易分裂的高置信伪标签和一个未标记的硬分割,其中|Xte|=λ|Xt|和|Xth|=(1−λ)|Xt|。在第四部分,我们进行了超参数分析实验来研究λ的影响。

  • 领域内的适应

在本节中,构建了与第一阶段相同的GAN架构,以在输出级别对齐硬分割和容易分割,并减少域内间隙。生成器Gintra用第一阶段适应的生成器进行初始化,并以带伪标签的分割Xte和未标记的硬分割Xth作为输入,输出输入判别器,用于预测域标签。Dintra被训练以最小化二值CE分类损失,而Gintra被训练以最小化分割损失和对抗性损失。它们的定义如下:

β为损失权重,以平衡这两种损失和

与第一阶段一样,Dintra和Gintra使用(8)和(9)中的损失函数进行交替优化

  • 自训练

在目标域上进行域内适应训练后,自适应的道路分割模型Gintra性能更好,能够预测出更准确的道路分割图。因此,我们使用这种自适应生成器更新目标图像的伪标签,并重复域内分割和自适应过程,逐步提高道路分割模型的性能,直到饱和,如图2所示。算法1总结了RoadDA的训练算法

2.4.应用细节

对于生成器,ResNet-101是在ImageNet上预训练的。直接对FPFM的判别融合特征进行上采样,预测最终的分割概率图。对于鉴别器,我们采用类似[44]的全卷积网络。该网络包含5个卷积层,内核为4×4,步幅为2。斜率为0.2的LeakyRELU作为激活函数跟随在除最后一层外的每个卷积层。
我们在单个lenvidia V100 GPU上使用PyTorch实现了我们的模型。使用随机梯度下降(SGD)优化器优化发电机(Ginter,Gintra),动量为0.9,权重衰减为10−4。我们使用Adam优化器以0.9和0.99的动量来优化鉴别器。生成器和鉴别器的初始学习率分别为4×10−4和1×10−4,使用0.9次幂的多项式衰减策略降低两者。α 和β分别为0.1和0.01。我们设置批量大小为4,λ为0.7。

3.实验

IEEE2022/遥感:Stagewise UnsupervisedDomain Adaptation WithAdversarial Self-Training for Road Segmentat相关推荐

  1. [论文翻译]数据集的domian问题:Intramodality Domain Adaptation Using Self Ensembling and Adversarial Training

    论文pdf下载: 链接 Intramodality Domain Adaptation Using Self Ensembling and Adversarial Training 使用自集成和对抗性 ...

  2. 遥感-Deep Covariance Alignment for Domain Adaptive Remote Sensing Image Segmentation域自适应遥感图像分割中深度协方差对齐

    Deep Covariance Alignment for Domain Adaptive Remote Sensing Image Segmentation域自适应遥感图像分割中的深度协方差对齐 0 ...

  3. Domain adaptation from daytime to nighttime: A situation-sensitive vehicle detection and traffic…(翻)

    Title:Domain adaptation from daytime to nighttime: A situation-sensitive vehicle detection and traff ...

  4. 【ICLR2019】Poster 论文汇总

    ICLR2019 Poster 文章汇总, 共478 papers Convolutional Neural Networks on Non-uniform Geometrical Signals U ...

  5. INTERSPEECH 2018 | 语音识别技术之说话人自适应技术

    <Learning to adapt: a meta-learning approach for speaker adaptation> 这篇文章来自爱丁堡大学,以下是摘要: 通过调整声学 ...

  6. 转:行人检测(Pedestrian Detection)资源

    .论文 CVPR 2012 与行人检测相关的论文 [1] Contextual Boost for Pedestrian Detection  YuanyuanDing, Jing Xiao [2]  ...

  7. ACL 2018 ACCEPTED PAPER

    ACL 2018接受了258篇长论文和126篇短论文,总体接受率为24.9%. 论文官方地址:https://acl2018.org/programme/papers/ 详细如下: Long Pape ...

  8. VGG网络在CIFAR_10和GID数据集上的Pytorch实现

    文章目录 一.VGG简介 二.VGG-16在CIFAR_10数据集上的实现 2.1 CIFAR_10数据集简介 2.2 加载数据集(Dataset) 2.3 模型搭建(Model) 2.4 训练(Tr ...

  9. Domain Adaptive Object Detection for Autonomous Driving under FoggyWeather(翻)

    Title:Domain Adaptive Object Detection for Autonomous Driving under FoggyWeather 雾天环境下自动驾驶领域自适应目标检测 ...

最新文章

  1. C#和Unity编码和游戏开发学习教程
  2. 蓝桥杯:基础练习 闰年判断
  3. 如何让MFC编写的应用程序(用VC6.0开发)能在别的电脑上运行
  4. 怎么做fastreport使用离线数据源
  5. 如何在一个月内让QQ农场冲上40级
  6. python读取mysql数据库行数_使用python读取mysql数据库并进行数据的操作
  7. endnote中科大版区别_EndNote X7
  8. 阿帕奇服务器配置站点,Apache的基本服务器配置
  9. HC-SR04超声波传感器
  10. 使有用计算机不注意卫生,“十种举措”,远离干眼
  11. 计算机系统组成思维导图
  12. linux tuxedo查看服务进程数,tuxedo管理命令之tmboot与tmshutdown
  13. spark常见转换算子(transformation)的操作
  14. 使用DPDK优化VirtIO和OVS网络
  15. 问题:谷歌浏览器(Chrome)无法访问网站ERR_CONNECTION_REFUSED
  16. 微信小程序调用相册和相机
  17. MD5加密为什么不可逆?
  18. java 动态添加字段 以及 动态新增字段注解
  19. 【Canvas】js用Canvas绘制阴阳太极图动画效果
  20. C++ primer 第十章 泛型算法

热门文章

  1. 3D打印机模型设备设计 毕业设计(论文)开题报告
  2. Dev Board---将摄像机连接到开发板
  3. wrl文件转换成obj文件
  4. 黑脸团队:我们要创一台实话实说的智能书桌
  5. Zigbee 无线传感网络 无线通信技术 协议体系结构 OSAL
  6. 【CV】图像融合结果评价
  7. android 基站定位
  8. 医疗人工智能适逢其时 信息通信网络赋能千行百业
  9. 数学建模(数据分析C题)-建模思路
  10. 16Aspx.com-书通网中小学生免费在线学习网站源码 带采集带手机版帝国cms内核