显著目标检测：IVIF

STDFusionNet: An Infrared and Visible Image Fusion Network Based on Salient Target Detection

（STDFusionNet: 基于显著目标检测的红外和可见光图像融合网络）

我们提出了一种基于显著目标检测的红外和可见光图像融合网络，称为STDFusionNet，可以保留红外图像中的热目标和可见光图像中的纹理结构。
首先，显著目标掩模专用于注释人类或机器更关注的红外图像区域，从而为不同信息的集成提供空间指导。
其次，我们结合这种显著的目标掩模来设计特定的损失函数，以指导特征的提取和重建。具体地，特征提取网络可以选择性地从红外图像中提取显著的目标特征和从可见图像中提取背景纹理特征，而特征重建网络可以有效地融合这些特征并重建所需的结果。
值得注意的是，仅在训练阶段才需要显著目标掩码，这使所提出的STDFusionNet成为端到端模型。换句话说，我们的STDFusionNet可以隐式方式完成显著的目标检测和关键信息融合。

介绍

对于图像融合的发展史（略）

为了解决上述挑战，我们提出了一种基于红外和可见光图像融合的显著目标检测的新颖框架，即STDFusionNet。首先，对于红外图像，人和机器主要关注突出目标所在的区域，如行人、车辆和大块头。此外，可见图像中丰富的背景纹理有助于使场景更加生动。因此，我们将融合过程中最有意义的信息定义为红外图像的重要热目标和可见图像中的背景纹理结构。基于此定义，我们开发了一个特定的损失函数，通过注释红外图像中的显著目标以获得显著目标掩模来指导融合模型学习。结果，我们的网络可以选择性地提取和重建上述定义的有效特征。
此外，由于多模态源图像的显著差异，我们采用伪连体网络从源图像中提取具有区别的不同类型的信息，例如显著的目标强度和背景纹理结构。值得强调的是，显著的目标掩码仅用于指导网络的训练，在测试阶段不需要馈入网络，因此，我们的网络是端到端模型。在这些特定设计下，我们的STDFusionNet有效地解决了有效的特征提取和所需信息定义的问题。

贡献

1）我们将融合过程中的所需信息定义为红外图像的显著目标和可见图像中的背景纹理的组合。据我们所知，这是红外和可见光图像融合目标的第一个明确定义。

2）我们将显著目标掩模引入特定的损失函数，该函数可以指导网络检测红外图像中的热辐射目标，并将其与可见图像中的背景纹理细节融合。

3）广泛的实验证明了我们的方法优于最新的替代方法。与竞争对手相比，我们的方法可以生成融合结果，看起来像带有突出显示目标的高质量可见图像，这有助于提高目标识别和场景理解。

方法

Problem Formulation

图像融合的目标是从多源图像中提取重要信息，并融合互补信息以生成合成图像。这个问题的关键是如何定义最有意义的信息，以及如何融合互补信息。在红外和可见光图像融合中，最关键的信息是主要目标和纹理结构，它们分别包含在红外图像和可见光图像中。因此，我们将所需信息明确定义为红外图像中的显著目标信息和可见图像中的背景纹理结构信息。因此，基于此定义的图像融合有两个关键：

第一个关键是确定红外图像中的显著目标。通常，红外图像的重要信息主要呈现在包含可以发出更多热量的物体 (例如，行人，车辆和掩体) 的区域中。因此，网络应该学会从红外图像中自动检测这些区域。

第二个关键是从检测到的区域中准确提取所需的信息，并进行有效的融合和重建。换句话说，融合结果应准确地包含红外图像中的显著目标和可见图像中的背景纹理。

针对上述两个关键问题，设计了具体的损失函数和有效的网络结构。
首先，我们提出了一种特定的损失函数来约束融合过程，其中引入显著目标掩模来指导网络检测显著区域，同时通过确保特定区域的强度和梯度一致性来实现热目标和背景纹理的保存。
其次，我们设计了一种有效的网络结构来实现特征提取，融合和重建。具体地，特征提取网络采用伪连体网络架构对源图像进行区别对待，从而有选择地从红外图像Iir中提取显著目标特征，从可见图像Ivi中提取背景纹理特征。最终，特征重建网络融合提取的特征并重建融合图像I f，突出显示红外图像中的显著目标，同时保留可见图像的纹理细节。在上述设计下，我们的模型可以隐式实现显着目标检测和期望的信息融合。

Loss Function

损失函数确定融合图像中保留的信息类型以及各种信息之间的比例关系。我们的STDFusionNet的损失函数包括两种损失: 像素损失和梯度损失。像素损失约束融合图像的像素强度与源图像一致，而梯度损失迫使融合图像包含更详细的信息。我们为显着区域和背景区域构造像素损耗和梯度损耗。结合显著目标掩码Im，可以将期望的结果Id定义为

STDFusionNet生成的图像可以被分割成一个突出区域Im ° I f，包含热红外目标和一个带有纹理细节的背景区域 (1 − Im) ° if。

因此，我们分别在显着区域和背景区域中构建相应的损耗，以指导STDFusionNet的优化。一方面，我们将融合图像约束为具有与所需图像相同的像素强度分布。

其中H和W分别是图像的高度和宽度，而||·||1代表l1-norm。另一方面，引入梯度损耗以增强网络上的约束，以迫使具有更清晰纹理的融合图像和具有锐化边缘的显著目标。与像素损耗的定义类似，梯度损耗也包含

其中，▽ 表示梯度算子; 在本文中，我们使用Sobel算子来计算图像的梯度。

与以前的方法不同，我们将同一区域的像素损耗和梯度损耗同等对待，因此最终的损耗函数定义为

Network Architecture

我们的网络体系结构由两部分组成: 特征提取网络和特征重建网络，如图3所示：

（基于显著目标检测的红外和可见光图像融合网络的体系结构。在模型的训练中只需要构造损失函数，在测试阶段不需要掩模。）

1) Feature Extraction Network:
在CNN的基础上构建了特征提取网络，并引入了ResBlock来增强网络提取，缓解梯度消失/爆炸的问题。如图3所示，特征提取网络由一个公共层和三个可以加强提取的信息的重新块组成。公共层由内核尺寸为5 × 5的卷积层和泄漏的整流线性单元激活层组成。每个Resblock由三个卷积层组成，分别称为Conv1，Conv2和Conv3，以及一个skip连接的身份映射卷积层，称为身份conv。除Conv2的内核大小为3 × 3外，所有卷积层的内核大小均为1 × 1。

Conv1和Conv2都使用 ReLU作为激活函数，而Conv3和identity conv的输出求和,再使用ReLU激活函数。identity conv旨在克服重块输入和输出的不一致维数。值得注意的是，考虑到红外和可见光图像的不同属性，两个特征提取网络都使用相同的网络体系结构，但是各自的参数是独立训练的。结合所提出的损失函数，特征提取网络可以从源图像中提取显著特征和纹理细节特征。

2) Feature Reconstruction Network:

特征重建网络由四个ResBlocks组成，分别发挥特征融合和图像重建的作用。值得注意的是，最后一层的激活功能使用Tanh来确保融合图像的变化范围与输入图像的变化范围一致。特征提取网络的输入是红外卷积特征和可见卷积特征在信道维度上的串联，其输出是融合图像。众所周知，信息丢失是图像融合任务中的灾难性问题。因此，在STDFusionNet的所有卷积层中，填充设置为相同，而步幅设置为1。结果，我们的网络不会引入任何降采样，并且融合图像的大小与源图像一致。
显著目标掩模的目的是突出显示在红外图像中辐射大量热量的对象 (例如，行人，车辆和掩体)。因此，我们使用LabelMe工具箱来注释红外图像中的显着目标，并将其转换为二进制显着目标掩模。然后，反转显著目标掩码以获得背景掩码。之后，我们将显着目标掩模和纹理背景掩模与像素级别的红外图像和可见图像相乘，分别获得源显着目标区域和源背景纹理区域。此外，融合图像还与像素级的显著目标掩模和纹理背景掩模相乘，以接收融合的显著目标区域和融合的背景区域。随后，应用原始显著区域、原始背景区域、融合显著区域和融合背景区域构建特定损失函数，指导网络隐式实现显著目标检测和信息融合。