【ECCV2020】Bi-directional Cross-Modality FeaturePropagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation

RGB-D语义分割中带分离和聚集门的双向跨模态特征传播

文章地址:https://arxiv.org/abs/2007.09183
代码地址:https://github.com/charlesCXK/RGBD_Semantic_Segmentation_PyTorch


摘要

  事实证明,深度信息在RGB-D图像的语义分割中是一个有用的线索,可以为RGB表示提供一个几何对应物。大多数现有的工作只是假设深度测量是准确的,并与RGB像素保持一致,并将该问题建模为跨模式特征融合,以获得更好的特征表示,从而实现更准确的分割。然而,这可能不会导致令人满意的结果,因为实际的深度数据通常是有噪声的,这可能会随着网络的深入而使准确性恶化。

在本文中,我们提出了一个统一高效的跨模态引导编码器,不仅可以有效地重新校准RGB特征响应,还可以通过多个阶段提炼出准确的深度信息,并将两个重新校准的表征交替汇总。所提出的架构的关键是一个新颖的分离和聚合门控操作,在跨模态聚合之前联合过滤和重新校准两个表示。同时,引入了双向多步传播策略,一方面帮助传播和融合两种模态之间的信息,另一方面在长期传播过程中保持它们的特性。此外,我们提出的编码器可以很容易地被注入到以前的编码器-解码器结构中,以提高它们在RGB-D语义分割上的性能。我们的模型在室内和室外的挑战性数据集[这项工作的代码可在https://charlescxk.github.io/]上的表现一直优于最先进的技术。

  索引项–RGB-D语义分割, 跨模态特征传播RGB-D语义分割, 跨模态特征传播


1导言

语义分割,其目的是给每个像素分配不同的语义标签,是一项长期的任务。除了利用视觉线索中的各种上下文信息[25,11,14,12,5,43],深度数据最近也被用作RGB数据的补充信息,以实现更好的分割精度[26,33,44,4,15,23,6,19]。深度数据通过为二维视觉信息提供三维几何图形而自然地补充了RGB信号,它对光照变化具有鲁棒性,有助于更好地区分各种物体。

尽管在RGB语义分割方面已经取得了重大进展,但直接将互补的深度数据输入现有的RGB语义分割框架[25]或简单地将两种模式的结果合在一起[6]可能会导致性能下降。关键的挑战在于两个方面。

  • (1) RGB和深度模态之间的巨大差异。RGB和深度数据显示出不同的特征。如何有效地识别它们的差异,并将这两类信息统一为语义分割的有效表示,仍然是一个开放的问题。
  • (2) 深度测量的不确定性。现有基准所提供的深度数据主要是由飞行时间或结构光相机捕获的,如Kinect、AsusXtion和RealSense等。由于不同的物体材料和有限的距离测量范围,深度测量通常是有噪声的。如图1所示,噪声在室外场景中更为明显,并导致了不理想的分割。


图1. (a)RGB-D基线,它是用一种惯用的跨模式融合模式设计的,在RGB和Depth模式之间存在巨大变化的区域,导致分类不准确。(b) 室外环境中的深度测量是有噪声的。如果没有提议的模块,结果将急剧下降

大多数现有的基于RGB-D的方法主要侧重于解决第一个挑战。标准做法是将深度数据2作为另一个输入,并采用类似全卷积网络(FCN)的架构与特征融合模式,如卷积和基于模式的亲和力等,来融合两种模式的特征[26,6,17,38]。然后,融合后的特征被用来重新校准后续的RGB特征响应或预测结果。尽管这些方法为统一两类信息提供了貌似合理的解决方案,但输入的深度数据与RGB信号准确一致的假设可能并不真实,这使得这些方法对野外样本很敏感。此外,如何确保网络完全利用两种模式的信息仍然是一个开放的问题。最近,一些作品[44,39]试图通过降低网络对深度测量质量的敏感性来解决第二个挑战。他们没有利用深度数据作为额外的输入,而是提议通过多任务学习来提炼深度特征,并将深度数据作为训练的额外监督。具体来说,[39]引入了一个两阶段框架,首先预测包括深度估计在内的几个中间任务,然后将这些中间任务的输出作为最终任务的多模态输入。[44]提出了一个联合预测深度、表面法线和语义分割的模式–affinitive传播,以捕捉模态之间的相关信息。我们认为,这种设计存在固有的低效性,即RGB和深度信息的相互作用和相关性只是被隐含地建模。这两种类型的数据对于语义分割的互补性并没有以这种方式得到很好的研究。

在上述观察的激励下,我们建议在一个简单而有效的框架中解决这两个挑战,在类似FCN的RGB-D语义分割骨干中引入一个新的跨模态引导的编码器。该框架的关键思想是利用两种模态的信道相关和空间相关,首先挤压深度的特殊特征响应,从而有效地抑制来自低质量深度测量的特征响应,然后使用被抑制的深度表示来细化RGB特征。在实践中,由于室内的RGB信号源也含有噪声特征,我们设计的步骤是双向的。与深度数据相比,RGB噪声特征通常是由不同相邻物体的相似外观引起的。我们将上述过程分别表示为深度特征重新校准和RGB特征重新校准。因此,我们引入了一个新的门单元,即分离与聚合门(SA-Gate),通过鼓励网络首先重新校准和关注每个模态的特定特征,然后有选择地聚合两种模态的信息特征进行最终分割,从而提高多模态的表示质量。为了有效利用两种模态之间的特征差异,我们进一步引入了双向多步传播(BMP),鼓励两个数据流在编码器阶段的信息交互过程中更好地保持其特殊性。

我们的贡献可以概括为三个方面:

  • 我们为RGBD语义分割提出了一个新颖的双向跨模态引导的编码器。通过所提出的SA-Gate和BMP模块,我们可以有效地减少嘈杂的深度测量的影响,并允许纳入足够的互补信息以形成用于分割的鉴别性表示。

  • 对NYUD V2数据集的综合评估表明,当我们的方法被整合到最先进的RGB语义分割网络中时,有了明显的改进,这表明我们的编码器作为一个即插即用的模块具有通用性。

  • 所提出的方法在室内和具有挑战性的室外语义分割数据集上都取得了最先进的性能。


2.相关工作


2.1 RGB-D语义分割

随着深度传感器的发展,最近,人们对利用深度数据作为RGB语义分割任务的几何增强的兴趣大增,被称为RGB-D语义分割[26,33,20,24,44,3]。根据适合不同架构的深度信息的具体功能,目前基于RGB-D的方法可以大致分为两类。

大多数作品将深度数据作为一个额外的输入源,以隐含或明确的方式重新校准RGB特征响应。Long等人[25]的研究表明,简单地对RGB和D模式的最终得分图进行平均,有助于在室内环境中执行物体间的区分。Li等人[23]利用LSTM层选择性地融合两种模式输入的特征。在类似的目标下,[6]提出了对位置敏感的去卷积网络和门控融合模块。最近的几项工作[31,9,17]将RGB特征的重新校准过程从双路径网络的最终输出扩展到骨干网的不同阶段,鼓励用多级跨模态特征融合进行更好的重新校准。为了用明确的跨模态交互建模来指导重新校准,一些工作[20,33,27,37]将一般的二维操作定制为具有深度指导的2.5维行为。例如,[33]提出了深度感知的卷积和池化操作,以帮助在深度一致的区域重新校准RGB特征响应。[20]提出了一个深度感知的门模块,根据物体尺度自适应地选择CNN中的池化场大小。3DGNN[27]引入了一个三维图形神经网络,用深度提供的几何线索来模拟准确的上下文。另外,一些方法将深度数据视为一个额外的监督信号,以多任务学习的方式重新校准RGB对应物。例如,[44]提出了一个模式亲和传播网络来规范和提升互补任务。[39]引入了一个多模态蒸馏模型,将有效信息从深度传递到RGB特征。

与之前的工作不同的是,这些工作对深度源的质量持有理想的假设,并且主要关注室内环境,我们试图将任务扩展到野外环境中,例如CityScapes数据集。由于深度数据中不可避免地含有噪声信号,室外环境更具挑战性。在这项工作中,我们试图从过滤的深度表征中重新校准RGB特征响应,反之亦然,这有效地提高了两种模式的表征强度。

2.2 注意机制

注意机制已被广泛用于各种计算机视觉任务中,作为工具来关注输入信号中最具代表性和信息量的区域[11,35,30,16,21,34]。例如,为了提高图像/视频分类任务的性能,SENet[16]通过特征图的不同通道之间的重要性模型引入了一个自我重新校准的门控机制。基于类似的精神,SKNet[21]设计了一个通道式注意力模块,根据输入信息的多个尺度选择核大小来适应性地调整其感受野的大小。[34]引入了一个非局部操作,探索空间中每对点的相似性。对于分割任务,一个精心设计的注意力模块可以鼓励网络有效地学习有用的背景信息。例如,DFN[41]引入了一个通道注意模块,从多级特征图中选择更有鉴别力的特征,以获得更准确的语义信息。DANet[11]提出了两类注意力模块,分别在空间和通道维度上对语义的相互依赖性进行建模。

然而,RGB-D语义分割任务的主要挑战是如何在各模态之间的大幅度变化和噪声信号下充分利用跨模态数据。所提出的SA-Gate是第一个通过调整注意机制来关注跨模态的噪声特征。SA-Gate模块专门用于抑制深度数据的特殊噪声特征,并首先以统一的方式重新标定其对应的RGB特征响应,然后在重新标定的特征指导下,用softmax门控融合跨模态信息,实现有效和高效的跨模态特征聚合。


3 方法

RGB-D语义分割需要聚合来自RGB和深度模式的特征。然而,这两种模式都有不可避免的噪声信息。具体来说,由于深度传感器的特性,深度测量是不准确的,而由于物体之间的外观相似度高,RGB特征可能会产生混乱的结果。一个有效的跨模态聚合方案应该能够从每个特征中找出它们的优势,并将信息量最大的跨模态特征统一为一个有效的表示。为此,我们提出了一种新型的跨模态引导编码器。图2(a)描述了拟议方法的整体框架,它由一个跨模态引导的编码器和一个分割解码器组成。
给定RGB-D数据作为输入[注意,我们使用HHA地图来编码深度测量],我们的编码器通过SA-Gate单元重新校准并融合两种模态的互补信息,然后通过双向多步传播(BMP)模块将融合的多模态特征与模态特定特征一起传播。然后,这些信息由一个分割解码器网络解码,生成分割图。我们将在本节的其余部分详细介绍每个组件。

图2. (a)我们的网络概述。我们采用了一个编码器-解码器结构。该网络的输入是一对RGB-HHA图像。在训练过程中,每一对特征图(例如,RGB-层1和HHA-层1的输出)被一个SA-Gates融合,并传播到编码器的下一个阶段,以进一步进行特征转换。第一个和最后一个SA-Gates的融合结果将被传播到分割解码器(DeepLab V3+)。 (b) SA-Gates的结构,它包含两个部分,特征分离(FS)和特征聚合(FA)。


3.1 双向引导的编码器


图3. 在CityScapes验证集上,FSP前后的深度特征的可视化。我们可以观察到,在FSP和无效的部分表面完成后,物体具有更精确的形状。更多的解释在补充材料中说明。

分离与聚合(SA)门。为了确保模态之间的信息特征传播,SA-Gate被设计为两个操作。一个是对每个单一模态的特征重新校准,另一个是跨模态特征聚合。这些操作由特征分离(FS)和特征聚合(F A)部分组成,如图2(b)所示。特征分离(FS)。我们以深度流为例。由于深度传感器的物理特性,深度模式下的噪声信号经常出现在靠近物体边界的区域或深度传感器范围以外的部分表面,如图3第二列所示。因此,网络应该首先过滤这些局部区域的噪声信号,以避免在重新校准互补的RGB模态和聚合跨模态特征的过程中出现误导性的信息传播。在实践中,我们利用RGB流中的高置信度激活来过滤掉同一水平上的特殊深度激活。为此,两种模态的全局空间信息应被嵌入和挤压,以首先获得一个跨模态的注意向量。我们通过沿着两种模态的通道维度进行全局平均汇集来实现这一目标,然后通过连接和MLP操作来获得注意向量。假设我们有两个输入特征图,分别表示为RGBin∈RC×H×WRG{B_{in}} \in {R^{C \times H \times W}}RGBin​∈RC×H×W和HHAin∈RC×H×WHH{A_{in}} \in {R^{C \times H \times W}}HHAin​∈RC×H×W,上述操作可以被表述为
I=Fgp(RGBin∣∣HHAin)(1)I=F_{gp}(RGB_{in}||HHA_{in}) \tag{1}I=Fgp​(RGBin​∣∣HHAin​)(1)
其中k表示两个模态的特征图的串联,Fgp{F_{gp}}Fgp​指全局平均池,I=(I1,⋯,Ik,⋯,I2C)I = ({I_1}, \cdots ,{I_{\rm{k}}}, \cdots ,{I_{2C}})I=(I1​,⋯,Ik​,⋯,I2C​)是跨模态全局描述符,用于收集整个输入的表达性统计。然后,深度输入的跨模态注意向量通过以下方式学习
Whha=σ(Fmlp(I)),Whha∈RC,(2)W_{hha}=σ(F_{mlp}(I)),W_{hha} \in R^C, \tag{2}Whha​=σ(Fmlp​(I)),Whha​∈RC,(2)
其中,Fmlp{F_{mlp}}Fmlp​表示MLPMLPMLP网络,σσσ表示将权重值扩展为(0,1)的sigmoid函数。通过这样做,网络可以利用信息量最大的视觉外观和几何特征,从而倾向于有效抑制深度流中噪声特征的重要性。然后,我们可以通过输入深度特征图和跨模态门之间的通道相乘,得到一个噪音较小的深度表示,即过滤的HHA。

有了过滤后的深度表示对应物,RGB特征响应可以用更准确的深度信息进行重新校准。我们将重新校准的操作设计为两种模式的相加。
RGBrec=HHAfiltered+RGBin(4)RGB_{rec}=HHA_{filtered}+RGB_{in} \tag{4}RGBrec​=HHAfiltered​+RGBin​(4)
其中RGBrecRGB_{rec}RGBrec​表示重新校准的RGB特征图。该公式背后的一般想法是,不是直接使用元素明智的乘积来重新权衡RGB特征,而是将深度特征作为重新校准的系数,建议使用求和的操作可以被视为某种抵消,以完善RGB特征在相应位置的响应,如表2所示。

在实践中,我们以对称和双向的方式实施重新校准步骤,这样,RGB流中的低信心激活也可以以同样的方式被抑制,过滤后的RGB信息RGBfilteredRGB_{filtered}RGBfiltered​可以反过来重新校准深度特征响应,形成一个更强大的深度 表征HHArecHHA_{rec}HHArec​。我们在图3中可视化了特征分离部分之前和之后的HHA的特征图。RGB的对应图在补充部分显示。

特征聚合(FA)。RGB和D特征具有很强的互补性。为了充分利用它们的互补性,我们需要根据它们的表征能力,在空间的某个位置对跨模态特征进行互补聚合。为了实现这一目标,我们考虑了这两种模态的特征,并为RGBin和HHAin生成了空间上的门,用软注意机制控制每种模态特征图的信息流,这在图2(b)中得到了直观的体现,并由第二个红框标出。为了使门更精确,我们使用FS部分的重新校准的RGB和HHA特征图,即RGBrec∈RC×H×WRG{B_{rec}} \in {R^{C \times H \times W}}RGBrec​∈RC×H×W和HHArec∈RC×H×WHH{A_{rec}} \in {R^{C \times H \times W}}HHArec​∈RC×H×W,来生成门。我们首先将这两个特征图串联起来,在空间的某一位置将它们的特征结合起来。然后,我们定义两个映射函数,将高维特征映射到两个不同的空间上的闸门。

其中Fconcat2∈R2C×H×W{F_{c{\rm{o}}ncat2}} \in {R^{2C \times H \times W}}Fconcat2​∈R2C×H×W是串联的特征,GrgbG_{rgb}Grgb​是RGB特征图的空间明智门,GhhaG_{hha}Ghha​是HHA特征图的空间明智门。在实践中,我们使用1×1卷积来实现这个映射函数。在这两个门上应用一个softmax函数。

其中Argb{A_{rgb}}Argb​,Argb∈R1×H×W{A_{rgb}} \in {R^{1 \times H \times W}}Argb​∈R1×H×W,Argb(i,j)+Ahha(i,j)=1A_{rgb}^{(i,j)} + A_{hha}^{(i,j)} = 1Argb(i,j)​+Ahha(i,j)​=1。Grgb(i,j)G_{rgb}^{(i,j)}Grgb(i,j)​是分配给RGB特征图中每个位置的权重,Ghha(i,j)G_{hha}^{(i,j)}Ghha(i,j)​是分配给HHA特征图中每个位置的权重。通过对RGB和HHA地图加权,可以得到最终的合并特征M。

到目前为止,我们已经添加了门控的RGB和HHA特征图,得到了融合的特征图M。由于SA-Gate被注入到编码器阶段,然后我们对融合的特征和原始输入进行平均,分别得到RGBout和HHAout,它们与残差学习的精神相似。

双向多步传播(BMP)。通过将每个位置的两个权重之和归一,加权后的特征的数值尺度不会与输入的RGB或HHA有明显差异。因此,它对编码器的学习或预训练参数的加载没有负面影响。对于每层l,我们使用第l个SA-门产生的输出M l来完善编码器中第l层的原始输出。RGBoutl=(RGBinl+Ml)/2RGB_{{\rm{out}}}^l = (RGB_{in}^l + {M^l})/2RGBoutl​=(RGBinl​+Ml)/2,HHAoutl=(HHAinl+Ml)/2HHA_{{\rm{out}}}^l = (HHA_{in}^l + {M^l})/2HHAoutl​=(HHAinl​+Ml)/2。这是一个双向传播的过程,提炼的结果将被传播到编码器的下一层,以便对这两种模式进行更准确和有效的编码。


3.2 分割解码器

解码器几乎可以采用SOTA基于RGB的分割网络的任何解码器设计,因为SA-Gate是一个即插即用的模块,可以很好地利用编码器阶段的跨模态的互补信息。我们在表6中展示了将我们的编码器与不同的解码器相结合的结果。我们选择DeepLabV3+[2]作为我们的解码器,因为它取得了最好的性能。


4 实验

我们在室内的NYU Depth V2和室外的CityScapes数据集上进行了两个指标的综合实验:平均交叉点(mIoU)和像素精度(pixel acc.)。我们还在SUNRGBD数据集上评估了我们的模型(更多细节请参考补充材料)。

4.1 数据集

NYU Depth V2[28]包含1449幅带有40类标签的RGB-D图像,其中795幅用于训练,其余654幅用于测试。

CityScapes [8] 包含27个城市的图像。有2975张图像用于训练,500张用于验证,1525张用于测试。每张图片的分辨率为2048×1024,并以19个语义类别的像素级标签进行了精细标注。

在我们的实验中,我们不使用额外的粗略的注释。

4.2 实施细节

我们使用PyTorch框架。对于数据增强,我们使用随机水平翻转和尺度[0.5,1.75]的缩放。当与SOTA方法比较时,我们采用翻转和多尺度推理策略作为测试时间的增强来提高性能。更多细节在补充材料中显示。

4.3 效率分析

为了验证所提出的跨模式特征传播是否有帮助,是否高效,我们将最终模型与RGB-D基线进行了比较。我们将两个并行的DeepLab V3+的平均预测值作为RGB-D基线。如表1所示,与基线相比,所提出的方法取得了更好的性能,对内存的要求和计算成本明显降低。

表1. 在NYUDV2测试集上的效率比较。我们使用ResNet-50作为主干,DeepLab V3+[2]作为解码器。FLOPS是对3×480×480输入的估计。

结果表明,漫无目的地向多模态网络添加参数并不能带来额外的表现力来更好地识别物体。相反,一个精心设计的跨模态机制,如拟议的跨模态特征传播,有助于学习更强大的表征,从而更有效地提高性能。


4.4 消融研究

我们在相同的超参数下对我们的设计选择进行消融研究。

特征分离。我们在SA-Gate的特征聚合之前采用了FS操作,以过滤掉双向重新校准步骤中的噪声特征。

表2. 对纽约大学深度V2测试集的特征分离(FS)部分的消融研究。这里没有使用解码器

为了验证这一操作的有效性,我们在表2中消融了每个设计的FS。请注意,我们剔除了四种不同的结构,并替换了网络中所有的FS部分进行比较。Concat "代表我们将RGBin和HHAin特征图连接起来,并直接将它们传递给特征聚合部分。Self-global "代表我们用自己的全局信息过滤单一模式的特征。Cross-global "代表过滤后的RGB被添加到输入RGB中,反之亦然。过滤指导来自于跨模式的全局信息。乘积 "意味着我们将RGBin乘以HHAfiltered,反之亦然。我们看到,从第2列到第4列,不使用跨模态信息来过滤噪声特征,或在没有明确的跨模态重新校准的情况下细化特征,导致大约1%的下降。另一方面,最后两列表明,在做跨模态重新校准时,跨模态指导(E.q 4)比跨模态重新加权更合适和有效。总的来说,这些结果表明,提议的FS操作者有效地过滤了不正确的信息并重新校准了特征响应,在所有比较的设计中取得了最好的性能。

特征聚合。我们采用SA-Gating机制,根据每个空间位置的不同特征,从跨模式数据中自适应地选择特征。这个门可以有效控制多模态数据的信息流。为了评估该设计的有效性,我们对特征聚集进行了消减研究,如表3所示。实验设置与上述保持一致。添加 "表示直接添加重新校准的RGB和HHA特征图。Conv’表示对聚合的特征图进行卷积。'Proposed’代表FA运算符。我们看到,FA运算符导致了最好的结果,因为它考虑了两种模式之间的空间关系,可以更好地探索互补信息。

表3. 对纽约大学深度V2测试集的特征聚合(FA)部分的消融研究。这里没有使用解码器

编码器的设计。我们验证和分析了所提出的BMP对我们的编码器的有效性,以及它是如何与SA-门一起运作的。为此,我们进行了两项消融研究,如表4和5所示。我们使用ResNet-50作为我们的骨干,直接对最终的分数图进行16倍的上采样,而不使用分割解码器。表4和5中的第一行是基线,它平均了两个ResNet-50(RGB和D)产生的分数图。

表4. 对纽约大学深度V2测试集的编码器设计的消融研究。'*'表示我们对RGB和HHA的两个输出进行平均,以获得最终输出。这里没有使用解码器

对于第一次消融,我们逐渐将SA-Gate单元嵌入ResNet50的不同层后面。请注意,我们为两边生成分数图,并将其平均作为最终的分割结果。这个设置与上面的设置不同,因为ResNet的最后一个块可能没有配备SA-Gate,也就是说,最后一个块没有产生融合特征。从表4可以看出,如果SA-Gate被嵌入到较高的阶段,会导致相对较差的性能。此外,当逐级堆叠SA-Gate时,额外的增益会不断减少。这两个现象表明,不同模态的特征在低级阶段有更大的差异,早期融合将获得更好的性能。表5显示了第二个实验的结果。我们观察到,SA-Gate和BMP都能提高性能。同时,它们相互补充,在其他组件存在的情况下表现更好。此外,当把表5和表2联系起来时,我们看到SA-Gate帮助BMP比其他门机制更好地传播有效信息。这证明了更准确的表述对特征传播的有效性和重要性。

表5. BMP和SA-GATE的消融研究。这里没有使用解码器

拟议编码器的即插即用特性。我们进行了消融研究,以验证我们的方法在不同类型中的灵活性和有效性的解码器。按照最近的基于RGB的语义分割算法,我们将他们的解码器与我们的模型进行拼接,形成改良的RGB-D版本(即RGB-D w SA-Gate),如表6所示。我们看到,在第2列和第4列中,我们的方法始终有助于实现对原始RGB版本的重大改进。此外,与天真的RGB-D修改相比,我们的方法还提高了至少1.5%的mIoU性能。特别是,与Deeplab V3+[2]中的解码器相比,我们的方法实现了3.7% mIoU的改进。这些结果验证了我们的方法对于各种解码器的灵活性和有效性。

表6. 所提模型在纽约大学深度V2测试集上的即插即用特性评估。方法表示不同的解码器,SA-Gate表示提议的融合模块。RGB:RGB图像作为输入;RGB-D:简单的方法,只对RGB路径和HHA路径的最终得分图进行平均。请注意,我们使用官方开源代码复制这些方法,所有实验都使用与我们的方法相同的设置。


4.5 SA-门的可视化


图4. 通过SA-Gate对NYUD V2测试集进行特征选择的可视化。对于每一行,我们显示(1) RGB, (2) HHA, (3) RDFNet-101的结果, (4) SA-Gate的可视化, (5) 我们的结果, (6) GT。红色代表分配给RGB的权重更高,蓝色代表分配给HHA的权重更高。最好以彩色观看

我们将模型中的第一个SA-门可视化,看看它学到了什么,如图4所示。请注意,GT中的黑色区域代表在计算IoU时被忽略的像素。我们在PyTorch中重现了RDFNet-101[26],在NYU深度V2上有48.7%的mIoU,这与原始论文中的结果(49.1%)接近。红色代表分配给RGB的权重更高,蓝色代表分配给HHA的权重更高。从第4栏,我们可以看到,RGB有更强的反应在边界处,HHA在强光和黑暗区域反应良好。这种现象是合理的,因为RGB特征在高对比度区域有更多的细节,而HHA特征不受照明条件的影响。从第1行来看,黄框内的细节在HHA中丢失了,而在RGB中却很明显。我们的方法成功地识别了椅子腿,并区分了看起来与椅子相似的桌子。在第2行,强光模糊了照片框架的边界。由于我们的模型在这一区域更注重HHA,所以它比RDFNet更完整地预测了照片的框架。

此外,我们的模型在衣架上比RDFNet捕捉到更多的细节。在第3行,深红色的柜子在RGB中很难识别,但在HHA中却有可识别的特征。RGB和HHA的不正确融合导致了这个区域的语义错误(第3列)。而我们的模型在这个区域更关注HHA,以获得更精确的结果。

4.6 Comparing with State-of-the-arts

表7. 纽约大学深度V2测试集的最先进对比实验

NYU 的深度V2。 结果显示在表7中。我们的模型取得了领先的性能。考虑到与利用ResNet-50作为骨干的[44,17,39]的公平比较,我们也使用相同的骨干,达到51.3%的mIoU,仍然优于这些方法。具体来说,[26,17]试图使用通道关注或香草卷积来提取互补特征,这些方法在从互补信息中选择有效特征方面比我们的模型更隐蔽。此外,我们可以看到,利用深度数据作为额外的监督(如[44,39])可以使网络比一般的RGB-D方法更稳健,因为它把RGB和深度都作为输入源[26,6,27]。然而,我们的结果表明,一旦输入的RGB-D信息可以被有效地重新校准和聚合,就可以获得更高的性能。

CityScapes。我们在验证集上取得了81.7%的mIoU,在测试集上取得了82.8%的mIoU,这都是领先的表现。表8显示了测试集的结果。

表8. 城市景观测试集的准确性。*'表示基于RGB-D的方法

我们观察到,由于这个数据集的深度测量存在严重的噪声,以前大多数基于RGB-D的方法甚至比基于RGB的方法更差。

然而,我们的方法有效地提炼了深度特征并提取了其中的有效信息,提高了性能。请注意,[7]是一个当代的工作 双向跨模态特征传播与SA-GATE 15,我们的表现比他们好0.7%。为了公平比较,我们排除了GSCNN[29]的结果,因为它使用了更强的骨干WideResNet而不是ResNet101。然而,我们在验证集上的表现仍然比GSCNN好0.9% mIoU,在测试集上的表现与它相同。


5 结论

在这项工作中,我们提出了一个跨模态引导的编码器以及SA-Gate和BMP模块来解决RGB-D语义分割的两个关键挑战,即不同模态的有效统一表示和对低质量深度源的鲁棒性。同时,我们提出的编码器可以作为一个即插即用的模块,可以很容易地注入到当前最先进的RGB语义分割框架中,以提高其性能。

致谢。这项工作得到了国家重点研发计划(2017YFB1002601,2016QY02D0304)、国家自然科学基金(61375022,61403005,61632003)、北京智能机器人与系统高级创新中心(2018IRS11)以及PEK-SenseTime机器视觉联合实验室的支持。


References

  1. Chen, L.C., Papandreou, G., Schroff, F., Adam, H.: Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587 (2017)
  2. Chen, L.C., Zhu, Y., Papandreou, G., Schroff, F., Adam, H.: Encoder-decoder with atrous separable convolution for semantic image segmentation. In: ECCV (2018)
  3. Chen, X., Lin, K.Y., Qian, C., Zeng, G., Li, H.: 3d sketch-aware semantic scene completion via semi-supervised structure prior. In: CVPR (2020)
  4. Chen, Y., Mensink, T., Gavves, E.: 3d neighborhood convolution: Learning depthaware features for rgb-d and rgb semantic segmentation. In: 3DV. IEEE (2019)
  5. Cheng, B., Chen, L.C., Wei, Y., Zhu, Y., Huang, Z., Xiong, J., Huang, T.S., Hwu,W.M., Shi, H.: Spgnet: Semantic prediction guidance for scene parsing. In: ICCV(2019)
  6. Cheng, Y., Cai, R., Li, Z., Zhao, X., Huang, K.: Locality-sensitive deconvolution networks with gated fusion for rgb-d indoor semantic segmentation. In: CVPR(2017)
  7. Choi, S., Kim, J.T., Choo, J.: Cars can’t fly up in the sky: Improving urbanscene segmentation via height-driven attention networks. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (2020)
  8. Cordts, M., Omran, M., Ramos, S., Rehfeld, T., Enzweiler, M., Benenson, R.,Franke, U., Roth, S., Schiele, B.: The cityscapes dataset for semantic urban scene understanding. In: CVPR (2016)
  9. Deng, L., Yang, M., Li, T., He, Y., Wang, C.: Rfbnet: Deep multimodal networks with residual fusion blocks for rgb-d semantic segmentation. arXiv preprint arXiv:1907.00135 (2019)
  10. Ding, H., Jiang, X., Liu, A., Thalmann, N.M., Wang, G.: Boundary-aware feature propagation for scene segmentation. In: ICCV (2019)
  11. Fu, J., Liu, J., Tian, H., Li, Y., Bao, Y., Fang, Z., Lu, H.: Dual attention network for scene segmentation. In: CVPR (2019)
  12. Fu, J., Liu, J., Wang, Y., Li, Y., Bao, Y., Tang, J., Lu, H.: Adaptive context network for scene parsing. In: ICCV (2019)
  13. Gupta, S., Girshick, R., Arbel´ aez, P., Malik, J.: Learning rich features from rgb-d images for object detection and segmentation. In: ECCV (2014)
  14. He, J., Deng, Z., Qiao, Y.: Dynamic multi-scale filters for semantic segmentation.In: CVPR (2019)
  15. He, Y., Chiu, W.C., Keuper, M., Fritz, M.: Std2p: Rgbd semantic segmentation using spatio-temporal data-driven pooling. In: ICCV (2017)
  16. Hu, J., Shen, L., Sun, G.: Squeeze-and-excitation networks. In: CVPR (2018)
  17. Hu, X., Yang, K., Fei, L., Wang, K.: Acnet: Attention based network to exploit complementary features for rgbd semantic segmentation. arXiv preprint arXiv:1905.10089 (2019)
  18. Huang, Z., Wang, X., Huang, L., Huang, C., Wei, Y., Liu, W.: Ccnet: Criss-cross attention for semantic segmentation. In: ICCV (2019)
  19. Hung, S.W., Lo, S.Y., Hang, H.M.: Incorporating luminance, depth and color information by a fusion-based network for semantic segmentation. In: ICIP. IEEE(2019)
  20. Kong, S., Fowlkes, C.C.: Recurrent scene parsing with perspective understanding in the loop. In: CVPR (2018)
  21. Li, X., Wang, W., Hu, X., Yang, J.: Selective kernel networks. In: CVPR (2019)
  22. Li, X., Zhang, L., You, A., Yang, M., Yang, K., Tong, Y.: Global aggregation then local distribution in fully convolutional networks. arXiv preprint arXiv:1909.07229(2019)
  23. Li, Z., Gan, Y., Liang, X., Yu, Y., Cheng, H., Lin, L.: Lstm-cf: Unifying context modeling and fusion with lstms for rgb-d scene labeling. In: ECCV (2016)
  24. Lin, D., Chen, G., Cohen-Or, D., Heng, P.A., Huang, H.: Cascaded feature network for semantic segmentation of rgb-d images. In: ICCV (2017)
  25. Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation. In: CVPR (2015)
  26. Park, S.J., Hong, K.S., Lee, S.: Rdfnet: Rgb-d multi-level residual feature fusion for indoor semantic segmentation. In: ICCV (2017)
  27. Qi, X., Liao, R., Jia, J., Fidler, S., Urtasun, R.: 3d graph neural networks for rgbd semantic segmentation. In: ICCV (2017)
  28. Silberman, N., Hoiem, D., Kohli, P., Fergus, R.: Indoor segmentation and support inference from rgbd images. In: ECCV (2012)
  29. Takikawa, T., Acuna, D., Jampani, V., Fidler, S.: Gated-scnn: Gated shape cnns for semantic segmentation (2019)
  30. Wang, F., Jiang, M., Qian, C., Yang, S., Li, C., Zhang, H., Wang, X., Tang, X.:Residual attention network for image classification. In: CVPR (2017)
  31. Wang, J., Wang, Z., Tao, D., See, S., Wang, G.: Learning common and specific features for RGB-D semantic segmentation with deconvolutional networks. In: ECCV(2016)
  32. Wang, P., Chen, P., Yuan, Y., Liu, D., Huang, Z., Hou, X., Cottrell, G.: Understanding convolution for semantic segmentation. In: W ACV (2018)
  33. Wang, W., Neumann, U.: Depth-aware cnn for rgb-d segmentation. In: ECCV(2018)
  34. Wang, X., Girshick, R., Gupta, A., He, K.: Non-local neural networks. In: CVPR(2018)
  35. Woo, S., Park, J., Lee, J.Y., So Kweon, I.: Cbam: Convolutional block attention module. In: ECCV (2018)
  36. Wu, H., Zhang, J., Huang, K., Liang, K., Yu, Y.: Fastfcn: Rethinking dilated convolution in the backbone for semantic segmentation. arXiv preprint arXiv:1903.11816(2019)
  37. Xing, Y., Wang, J., Chen, X., Zeng, G.: 2.5 d convolution for rgb-d semantic segmentation. In: ICIP. IEEE (2019)
  38. Xing, Y., Wang, J., Chen, X., Zeng, G.: Coupling two-stream rgb-d semantic segmentation network by idempotent mappings. In: ICIP. IEEE (2019)
  39. Xu, D., Ouyang, W., Wang, X., Sebe, N.: Pad-net: Multi-tasks guided predictionand-distillation network for simultaneous depth estimation and scene parsing. In:
    CVPR (2018)
  40. Yang, M., Yu, K., Zhang, C., Li, Z., Yang, K.: Denseaspp for semantic segmentation in street scenes. In: CVPR (2018)
  41. Yu, C., Wang, J., Peng, C., Gao, C., Yu, G., Sang, N.: Learning a discriminative feature network for semantic segmentation. In: CVPR (2018)
  42. Yuan, Y., Wang, J.: Ocnet: Object context network for scene parsing. arXiv reprint arXiv:1809.00916 (2018)
  43. Zhang, F., Chen, Y., Li, Z., Hong, Z., Liu, J., Ma, F., Han, J., Ding, E.: Acfnet:Attentional class feature network for semantic segmentation. In: ICCV (2019)
  44. Zhang, Z., Cui, Z., Xu, C., Yan, Y., Sebe, N., Yang, J.: Pattern-affinitive propagaion across depth, surface normal and semantic segmentation. In: CVPR (2019)
  45. Zhao, H., Shi, J., Qi, X., Wang, X., Jia, J.: Pyramid scene parsing network. In:CVPR (2017)
  46. Zhuang, Y., Tao, L., Yang, F., Ma, C., Zhang, Z., Jia, H., Xie, X.: Relationnet:Learning deep-aligned representation for semantic image segmentation. In: ICPR.EEE (2018)








Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Sem相关推荐

  1. Bi-directional Cross-Modality Feature Propagation with Separation-and Aggregation Gate_eccv2020

    Bi-directional Cross-Modality Feature Propagation with Separation-and Aggregation Gate for RGB-D Sem ...

  2. 动作识别阅读笔记(三)《Temporal Segment Networks: Towards Good Practices for Deep Action Recognition》

    (注:为避免中文翻译不准确带来误解,故附上论文原句.) 论文:Wang L , Xiong Y , Wang Z , et al. Temporal Segment Networks: Towards ...

  3. paper survey(2019.06.05)——卷积网络feature map的传递与利用

    最近阅读大量的paper来寻找突破点,就不打算一篇一篇的写博文的,直接记录于此(比较有意思的paper会独立出来博客) 目录 <Scale-Transferrable Object Detect ...

  4. 视频目标检测--Flow-Guided Feature Aggregation for Video Object Detection

    Flow-Guided Feature Aggregation for Video Object Detection https://arxiv.org/abs/1703.10025 Our fram ...

  5. power bi 实时_Power BI中的实时流

    power bi 实时 The concept of the IOT (Internet of Things) is that every object that you might think of ...

  6. power bi示例文件_Power BI桌面问答数据交互示例

    power bi示例文件 The Q&A feature in Power BI desktop provides a way to move towards Artificial Intel ...

  7. 论文阅读 激光脉冲主动非视距成像+深度学习 || Learned Feature Embeddings for Non-Line-of-Sight Imaging and Recognition

    论文原文: Wenzheng Chen, FangyinWei, Kiriakos N. Kutulakos, Szymon Rusinkiewicz, and Felix Heide. 2020. ...

  8. 【论文笔记】DEEP FEATURE SELECTION-AND-FUSION FOR RGB-D SEMANTIC SEGMENTATION

    论文 题目:DEEP FEATURE SELECTION-AND-FUSION FOR RGB-D SEMANTIC SEGMENTATION 收录于:ICME 2021 论文:Deep Featur ...

  9. PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space

    基本简介 论文下载地址:https://arxiv.org/pdf/1706.02413.pdf 代码开源地址:https://github.com/charlesq34/pointnet2 作者以及 ...

最新文章

  1. 统计学习方法第十四章作业:聚类—层次聚类聚合/分裂算法、K_means聚类算法 代码实现
  2. .NET 基金会完成第一次全面改选
  3. 【蓝桥杯官网试题 - 算法训练 】P0502(乱搞,tricks)
  4. 智慧交通day04-特定目标车辆追踪03:siamese在目标跟踪中的应用-SiamFC(2016)
  5. 子恩域名授权系统2.0全解
  6. 【图像处理】libtiff读写三维TIFF图像(附详细代码)
  7. 网络创新激活西部科技,戴尔2013软件定义网络圆桌会谈的启示
  8. QT5编程入门教程(非常详细)
  9. 苹果电脑如何设置屏保时间?
  10. 深信服AC路由部署模式,怎么启用为PN与总部机构为PN连接
  11. 剑指offer刷题总记——Java
  12. 埃尼阿克计算机怎么运行的
  13. message的警告弹窗放在最上层
  14. BBN:Bilateral-Branch network with cumulative learning for long-tailed visual recognition
  15. JS对象基础-怎么理解对象
  16. STM32单片机-汇编指令2
  17. 查询当天是一年的第几周
  18. java 写的星际争霸_用java写星际争霸的ai
  19. HDFS与Hive实战 + 滴滴出行数据分析
  20. 利用搜搜的问问做外链小技巧

热门文章

  1. 【一头扎进JMS】(2)----ActiviteMQ点对点消息实现
  2. MySQL事务分析和锁机制分析
  3. 巴西数字支付公司StoneCo美国上市 蚂蚁金服是股东
  4. jenkins 安装 SVN Publisher 后向 svn 提交代码报错: E170001: Authentication required for...
  5. Terminal软件
  6. CSS基础-04-浏览器调试
  7. 计算机应用基础考查方案,《计算机应用基础》考查方案
  8. 【单片机】C52单片机上用两个以上按键实现流水灯控制
  9. 学python的书-学习python求推荐一波书籍?
  10. 员工和老板的差距不只是能力,还有战略思维