【图像恢复与目标检测】揭示域效应:视觉恢复如何有助于水中场景中的目标检测

文章目录

摘要
一、引言
二、相关工作
三、准备
- 3.1 基于视觉恢复的数据域
- 3.2 检测器
- 3.3 水下机器人
四、实验分析
- 4.1 域内性能
- 4.2 跨域性能
- 4.3 机器人中的域效应
- 4.4 讨论
五、结论

论文全称：Reveal of Domain Effect：How Visual Restoration Contributes to Object Detection in Aquatic Scenes

摘要

水下机器人感知通常需要视觉恢复和目标检测，视觉恢复和目标检测这两方面都已经研究多年。数据域对现代数据驱动的学习过程产生了巨大的影响，然而视觉恢复与检测之间的关系尚不清楚，无法准确反映域效应。
本文：
主要研究了不同质量的数据域与检测性能之间的关系。同时揭示了视觉恢复如何有助于在真实水下场景的目标检测。根据分析，报告了5个关键发现：
1)域质量对域内卷积表征和检测精度有不可忽视的影响;
2)低质量域在跨域检测上泛化能力较高;
3)低质量的域在域混合学习过程中很难学好;
4)召回率降低，恢复不能提高域内检测精度;
5)视觉恢复通过减少训练数据与真实场景之间的域漂移，有利于野外检测。
最后，作为一个示例，我们成功地实现了一个水中机器人的水下目标检测。

一、引言

背景：
（1）水下机器人通常采用视觉方法感知环境：在过去的几年里，水下机器人的研究取得了很大的进展。例Gong等人设计了用于水下操作的柔性机械臂；Cai等人开发了一种混合动力水下车辆驱动装置，用于收集海洋产品。对于智能自主机器人，通常采用视觉方法进行水下场景感知。
（2）目标检测和视觉恢复：随着卷积神经网络的出现，目标检测成为计算机视觉领域的一个热门话题。同时目标检测是机器人感知的一个基本策略——基于检测，机器人可以发现目标是什么和在哪里。然而水下视觉信号由于光学吸收和散射，通常会发生退化，形成低质量的图像/视频——低质量意味着低对比度，高颜色失真，和强烈的模糊度。因此视觉恢复被广泛研究，以改善后续的视觉质量图像处理。
总的来说：视觉恢复和目标检测是水下机器人进行目标感知的两项基本能力。
问题和动机：
视觉恢复已经被证明对传统的人工特征(如SIFT)是有帮助的，但是图像质量和卷积表征之间的关系仍然不清楚。

如图，水下场景通常是退化的，而且退化通常有不同的类型——颜色失真、模糊、低光照(第一行)。通过基于过滤的恢复(FRS)和基于gan的恢复(GAN-RS)可以生成高质量的图像。虽然每一列都是相同的场景，但是DRN检测器的检测结果是不同的，因此恢复和检测应该具有潜在的相关性，这是值得研究的，为此我们研究回答一个问题——视觉恢复如何有助于水中场景中的目标检测?
视觉恢复产生了数据域的变化，数据域对于数据驱动的学习过程是非常重要的。然而在不同数据域的情况下，对域内和域间检测性能的研究很少，域对于目标检测的影响依旧不清晰，我们认为研究数据域的影响对于建立鲁棒的真实世界检测器具有指导意义。因此我们有动机研究基于视觉恢复的图像质量与检测性能之间的关系，从而揭示域效应对目标检测的影响，这样恢复与检测的关系也可以暴露出来。
我们的工作：
本文将视觉恢复和目标检测相结合，研究水下机器人感知问题。
（1）首先使用FRS和GAN-RS构建不同质量的数据域（代表恢复域），用于训练和测试，FRS是一种传统的滤波方法，GAN-RS是一种基于学习的算法。
（2）研究典型的单阶段检测器(SSD ， RetinaNet ， RefineDet 和DRN )在不同数据域上的性能，并分析了域内和域间的性能。
（3）最后在海底进行真实世界的实验，进行在线目标检测。在此基础上揭示基于恢复的数据域与检测性能的关系。
结论：视觉恢复虽然会对目标检测产生不利影响，但可以有效地抑制训练图像与实际场景之间的域漂移(即训练域与测试域的不一致性)。因此视觉恢复在水下机器人感知中仍然起着至关重要的作用。
本文贡献总结:
（1）揭示了三种域对检测的影响:①域质量在充分训练后对域内卷积表征和检测精度的影响微乎其微;②低质量域使得跨域检测泛化效果更好;③在不同域数据混合训练中，低质量的域很难学好。
（2）恢复对于提高域内检测精度来说是一个费力不讨好的操作，具体来说它降低了召回效率，然而视觉恢复有助于减少训练数据与实际水下场景之间的域漂移，从而提高在线检测性能。因此它是现实世界物体感知中必不可少的操作。

二、相关工作

水下视觉恢复：
（1）水下图像退化：由于自然物理现象的存在，水下视觉信号往往会发生退化，形成低质量的视觉——水下图像/视频对比度低、色彩失真大、模糊度强，给图像处理带来困难。Schechner和Karpel将这种退化归因于视觉吸收和散射。
（2）水下图像恢复：Peng和Cosman提出了一种基于图像模糊和光吸收的复原方法，估计了图像生成模型中的场景深度；Chen等人采用滤波模型和人工鱼群算法实现实时视觉恢复；Li等人对背景光和透射图进行了分层估计，其方法的特点是有很小的信息损失；Chen等人提出了一种弱监督GAN和对抗批评训练来实现实时自适应恢复；最近Liu等人建立了一个水下增强基准用于后续工作，其样本是在自然光下的海床上采集的。
分析发现，视觉恢复对于清除图像细节和产生明显的低阶特征是有益的。 例经典SIFT算法在恢复的基础上得到了巨大的性能改进，然而视觉恢复如何促进基于cnn的特征表征尚不清楚，此外视觉恢复与数据域密切相关，因此我们研究基于恢复的域效应。
目标检测与域自适应：
（1）深度学习单阶段目标检测——采用single-shot网络进行回归和分类：
①Liu等人提出了用于实时检测的SSD
②Li等人受feature pyramid network的启发，开发了RetinaNet，自上而下传播CNN特征，扩大浅层的接收域。
③Zhang等人将两步回归引入到单级管道中，设计了RefineDet来解决类不平衡问题。
④Chen等人提出了带锚偏置检测的DRN，实现了单阶段区域建议。
虽然两阶段检测器和无锚探测器可以产生更高的精度，但单阶段方法在机器人任务中保持了更好的精度-速度平衡。
（2）域自适应：
上述检测器一般假定训练样本和测试样本处于相同的分布中，然而现实世界的数据往往会出现域偏移，从而影响检测性能，因此目标检测的跨域鲁棒性是近年来研究的热点。 Chen等人基于H-divergence理论提出了用于图像级和实例级域偏移的自适应分量；Xu等人利用基于变形零件的模型和自适应支持向量机来缓解域移问题；Raj等人开发了子空间对齐方法，用于在现实世界场景中检测目标；为了缓解域移动的问题，Khodabandeh等人开发了一种带噪声标签的鲁棒学习方法；Inoue等人提出了一种基于域转移和伪标记的跨域弱监督训练用于域自适应目标检测。
上述工作指出了如何缓解域移动问题，但域对检测性能影响的深入研究相对较少。与此相反，我们研究了不同质量的数据域对目标检测的影响 。Kalogeiton等人分析了基于不同图像质量的检测性能，但我们比他们的工作有优势:1)我们分析了基于深度学习的目标检测;2)考虑了简单因素(如高斯模糊)的影响，但我们的域变化来自于逼真的视觉恢复;3)同时研究了跨域性能和域内性能;4)我们的工作对水下机器人做出了贡献。

三、准备

3.1 基于视觉恢复的数据域

域生成：
20181水下机器人抓取大赛(URPC2018)的数据集可用于水下目标检测，该数据集采集于中国大连獐子岛天然海床，由2901张用于训练的水族图像和800个用于测试的样本组成，它还包括“海参”、“海胆”、“贝壳”、“海星”四大类。
基于URPC2018，生成三个数据域：

（1） domain-O：包含原始数据集的训练集和测试集 ;
（2） domain-F：对所有样本进行FRS处理，生成train- F集进行训练，test-F集进行测试;
（3） domainG: 对所有样本进行GAN-RS处理，生成train-G训练集进行训练，测试集test-G集进行测试。
（4）train-all：混合train、train-G、train-G记为all-train。
如图所示，domain-O具有较强的颜色失真、模糊度和低对比度。在域f和域g中退化的视觉样本得到了有效的恢复。
域分析:

Lab颜色空间具有很好的描述图像水下特性的能力。因此上图说明在Lab颜色空间中a-b的分布。因此域o的分布始终聚集在远离颜色平衡点的地方(即(128,128))，分布中心与平衡点之间的偏差为强烈的颜色失真，集中分布表明有较强的模糊度。F域和G域的分布具有色彩平衡和去雾的趋势。
水下图像评价指标：
（1）水下彩色图像质量评价度量(UCIQE)：通过色度、饱和度和对比度量化图像质量。
（2）水下图像质量度量(UICM, UISM, UIConM, UIQM)：水下图像的综合质量表示，其中UICM、UISM和UIConM分别描述颜色、锐度和对比度。

从表可以看出，得益于视觉恢复，domain-F产生最佳的UCIQE和UICM，而domain-G产生最佳的UISM、UIConM和UIQM。因此我们将domain-F和domainG定义为具有高质量样本的高质量域。相反domain- o被定义为具有低质量样本的低质量域。 GAN-RS具有更好的恢复效果，因此我们定义GAN-RS恢复强度高于FRS。

3.2 检测器

在URPC2018上，两阶段检测器并不比单阶段检测器有优势。因此单阶段方法由于具有高精确度和实时推理速度的能力，因此选择利用单阶段检测器来执行水下离线/在线目标检测。本文对SSD、RetinaNet、RefineDet和DRN进行了详细的研究。所有这些检测器都是基于train、train- F、train-G或train- All进行训练的。
训练细节：SGD优化器配合采用动量0.9，权重衰减5×10−4，批量为32。前12×103迭代步采用初始学习率10−3，后3×103步采用初始学习率10−4，后3×103步采用初始学习率10−5。这种方法所有的检测器都可以得到充分的训练。在评价中，采用 (mAP)来描述检测精度。

3.3 水下机器人

水下机器人装备有摄像头和柔软的机械手臂，用于在线检测和抓取目标。长0.68米，宽0.57米，高0.39米，重50公斤。在机器人中，我们部署了一台带有Intel I5-6400 CPU、NVIDIA GTX 1060 GPU和8gb RAM处理器的微型计算机。因此该机器人具有很强的在线目标检测计算能力。

四、实验分析

4.1 域内性能

在本次测试中，检测器的训练和评估基于相同的数据域。下面的分析将揭示两点:
（1)域质量对检测性能有不可忽视的影响;
（2）由于召回率低的问题，恢复是一种难以提高域内检测性能的方法。低召回率意味着在召回率相同的情况下，查准率较低
数值分析：

首先用不同的输入大小(即320和512)和主干(即VGG16 ，MobileNet和ResNet101)训练和评估SSD。如上表所示，在domain-O、domain-F和domainG上，SSD320-VGG16分别获得69.3%、67.8%、65.9%的mAP, ssd520 - vgg16分别获得72.9%、71.3%、69.5%的mAP。可以看出，精度随着恢复强度的增加而降低。值得注意的是ResNet101的表现不如VGG16和MobileNet，因为ResNet101的大感受野不利于URPC2018中大量的小物体的检测。

上表：RetinaNet512、RefineDet512和DRN512都可以在domain-O上获得最高的mAP，在domain-G上看到最低的mAP。因此map方面，检测精度与领域质量呈负相关。但mAP不能反映准确的细节，因此下面的分析将继续研究域内的性能。
卷积表征的可视化：

（1）人类：人类是基于目标显著性感知域质量，因此与低质量域相比，由于高质量样本包含了显著的目标表征，人类更容易检测到高质量域的对象。
（2）CNN：我们受到启发去研究基于cnn的检测器中的目标显著性。上图显示了SSD和DRN的多尺度特征，这些特征作为检测头的输入，是用于检测的最终的卷积特征。由图可知尽管存在域多样性，但多尺度特征图中目标显著性的差异相对较小，因此就目标显著性而言，域质量对卷积表示有很小的影响。
Precision-recall分析：

如图所示利用精确召回曲线进一步分析检测性能。可以看出精确召回曲线有两种典型的表现形式:
①高精度部分包含了高置信度的检测结果，这里的域相关曲线高度重叠。参照DRN512-VGG16检测到的“echinus”，当召回率小于0.6时，无法分离域- o、域- f和域- g的曲线。也就是说在检测高置信度的目标时，域差异对于检测精度是可以忽略的。
② 在精度较低的部分，域相关曲线是分离的。其中domainF的曲线通常低于domain-O的曲线，而domain-G的曲线通常低于domain-F的曲线。也就是说，在检测难例(即低置信度检测)时，假阳性（FP）随着域质量的提高而增加。例如，当检测到“海星”的召回率等于0.8时通过SSD512-VGG16，域f的精度低于域o的精度，域g的精度低于域f的精度。因此随着恢复强度的增加，召回率逐渐降低。
通过上述分析可知：视觉恢复会降低召回率，不利于提高域内检测。此外由于域相关mAP相对紧密，高置信度recall比低自信度recall在机器人感知中更重要，因此我们得出域质量对域内目标检测的影响是可以忽略的。

4.2 跨域性能

在这个测试中，检测器是在不同的数据域上训练和评估的。接下来的分析将揭示三个观点:
1)域移位导致精度显著下降已被广泛接受;
2)对于跨域推理，基于低质量域的学习对高质量域具有更好的泛化能力;
3)在领域混合学习中，低质量的领域贡献较小，导致低质量样本无法很好地学习。
跨域评估：

使用域-0和域-G来评估方向相关的域转移，也就是说在train上训练检测器，并在test-G对它进行评估，反之亦然。
如表所示所有类别的mAP都严重下降：采用train和test-G，SSD512-VGG16的mAP下降17.4%，而DRN512VGG16的mAP下降15.9%；采用train-G训练和test进行测试，SSD和DRN将遭受更剧烈的精度恶化，即mAP下降49.4%和56.3%。
根据方向相反的域偏移引起的精度下降的不同程度，可以看出train对test-G的泛化能力优于train-G对test的泛化能力。因此与高质量领域相比，低质量域具有更好的跨领域泛化能力。
跨域训练：

为了探索使用域混合学习的检测性能，我们使用train-all来训练检测器，然后在test、test-F和test-G上评估它们。在test-F和test-G上，SSD512-VGG16和DRN512-VGG16的性能与其域内性能相当。然而SSD512-VGG16和DRN512-VGG16在test中的精度都明显较差，即mAP下降> 20%。在相同的训练设置下，在高质量的域F和域G上可以类似地产生域内性能，但是低质量的域O的精度显著下降。也就是说，当采用train-all训练时，train中的样本在一定程度上失去了作用。因此我们得出结论，跨域训练对于提高检测性能是吃力不讨好的。此外不同质量的数据域对学习过程有不同的贡献，因此如果将低质量的样本与高质量的样本混合训练，就不能很好地学习低质量的样本。

4.3 机器人中的域效应

在这个测试中，我们用水下机器人进行了真实世界的实验。测试场地为天然海床，位于中国大连金石滩。下面的分析将回答这个问题——视觉恢复如何有助于目标检测？
水下场景中的在线目标检测：

使用DRN512-VGG16来检测水下物体，根据训练域的不同，将检测方法分为DRN512-VGG16-O、DRN512VGG16-F和DRN512-VGG16-G，分别在train、train-F、train-G上进行训练。如果采用DRN512-VGG16-F或DRN512-VGG16-G，还应采用相应的视觉恢复(即FRS或GAN-RS)来应对在线数据。如上图所示，DRN512-VGG16O几乎完全失去了对目标感知的作用，DRN512-VGG16-F和FRS对水下目标的检测也有难度。相比之下，DRN512-VGG16-G和GAN-RS在这个真实的任务中，具有较高的召回率和检测精度。由于相同的检测方法和相同的训练数据内容，巨大的性能差距是由训练域造成的。
在线域分析：

如图所示，在线域和域-0之间存在巨大差异，因此DRN 512-VGG 16-0在检测精度上严重退化。域转移由FRS来调节，但是在这种情况下FRS不足以保持检测性能；相反GAN-RS具有较高的恢复强，通过GAN-RS处理，在线域和域-G高度重叠，所以DRN512-VGG16-G和GAN-RS能够很好的完成这个检测任务。
可以看出，随着恢复强度的增加，域偏移问题逐渐得到解决。此外水下场景域是多方面的(见图1)，域多样化的数据收集是不可实现的。因此为了抑制域偏移，视觉恢复对于水下环境中的目标检测是必不可少的。

4.4 讨论

本文揭示了域相关的检测学习的现象，并讨论了以下几点对未来工作的启示。
召回率：
在域内测试中，由于召回率低，高质量的域导致较低的检测性能，因为高质量的域名会导致更多的误报。然而在训练和测试阶段都存在可能导致误报的候选对象，在这种情况下这些候选对象的学习力度不够。因此我们主张进一步研究这些候选区域如何分别影响训练和推理，以探索更有效的学习方法。
CNN的域选择性：
在跨域训练中，低质量的样本会失去它们的效果，从而降低测试集的准确性。可见CNN的学习是以域选择性为特征的。即基于CNN的检测学习中样本的贡献是不同的。因此我们主张进一步研究CNN的域选择性，以构建更鲁棒的现实世界检测器。

五、结论

本文针对基于视觉恢复和目标检测的水下机器人感知领域分析展开研究。首先，从2018年中国遥感中心的数据集中导出质量不同的数据域。此外，还对单阶段检测器进行了训练和评估，展示了域内和跨域性能。最后我们进行在线目标检测，以揭示视觉恢复对目标检测的影响。
我们得出以下新观点:
（1）域质量对域内卷积表示和检测精度有可以忽略的影响；
（2）低质量域导致高的跨领域泛化能力；
（3）在域混合学习过程中，低质量的域很难被很好地学习；
（4）视觉恢复是一种费力不讨好的提升域内性能的方法，其召回率相对较低；
（5）视觉恢复在在线机器人感知中是必不可少的，因为它可以缓解问题域转移。