STDFusionNet: An Infrared and Visible Image Fusion Network Based on Salient Target Detection

(STDFusionNet: 基于显著目标检测的红外和可见光图像融合网络)

我们提出了一种基于显著目标检测的红外和可见光图像融合网络,称为STDFusionNet,可以保留红外图像中的热目标和可见光图像中的纹理结构。
首先,显著目标掩模专用于注释人类或机器更关注的红外图像区域,从而为不同信息的集成提供空间指导。
其次,我们结合这种显著的目标掩模来设计特定的损失函数,以指导特征的提取和重建。具体地,特征提取网络可以选择性地从红外图像中提取显著的目标特征和从可见图像中提取背景纹理特征,而特征重建网络可以有效地融合这些特征并重建所需的结果。
值得注意的是,仅在训练阶段才需要显著目标掩码,这使所提出的STDFusionNet成为端到端模型。换句话说,我们的STDFusionNet可以隐式方式完成显著的目标检测和关键信息融合。

介绍

对于图像融合的发展史(略)

为了解决上述挑战,我们提出了一种基于红外和可见光图像融合的显著目标检测的新颖框架,即STDFusionNet。首先,对于红外图像,人和机器主要关注突出目标所在的区域,如行人、车辆和大块头。此外,可见图像中丰富的背景纹理有助于使场景更加生动。因此,我们将融合过程中最有意义的信息定义为红外图像的重要热目标和可见图像中的背景纹理结构。基于此定义,我们开发了一个特定的损失函数,通过注释红外图像中的显著目标以获得显著目标掩模来指导融合模型学习。结果,我们的网络可以选择性地提取和重建上述定义的有效特征。
此外,由于多模态源图像的显著差异,我们采用伪连体网络从源图像中提取具有区别的不同类型的信息,例如显著的目标强度和背景纹理结构。值得强调的是,显著的目标掩码仅用于指导网络的训练,在测试阶段不需要馈入网络,因此,我们的网络是端到端模型。在这些特定设计下,我们的STDFusionNet有效地解决了有效的特征提取和所需信息定义的问题。

贡献

1)我们将融合过程中的所需信息定义为红外图像的显著目标和可见图像中的背景纹理的组合。据我们所知,这是红外和可见光图像融合目标的第一个明确定义。

2)我们将显著目标掩模引入特定的损失函数,该函数可以指导网络检测红外图像中的热辐射目标,并将其与可见图像中的背景纹理细节融合。

3)广泛的实验证明了我们的方法优于最新的替代方法。与竞争对手相比,我们的方法可以生成融合结果,看起来像带有突出显示目标的高质量可见图像,这有助于提高目标识别和场景理解。

相关工作

Traditional Fusion Methods(略记)

基于多尺度变换的方法认为,物理世界中的对象通常由各种尺度的组件组成,并且多尺度变换与人类视觉系统一致。因此,通过多尺度变换获得的融合图像可以具有令人愉悦的视觉效。通常,基于多尺度分解的红外和可见光图像融合方案通常涉及三个步骤。首先,将所有源图像分解为一系列多尺度表示。随后,根据特定的融合规则融合原始图像的多尺度表示。最终,通过对融合的多尺度表示进行相应的逆变换来获得融合图像。

基于显著性的方法通常建立在这样的基础上,即显著目标比其相邻的对象或像素更容易被人类视觉感知。显著性主要通过两种方式应用于红外和可见光图像融合,即权重计算和显著性目标提取。前者通常与多尺度变换相结合,其中通过多尺度变换将源图像分解为基础层和细节层。然后,使用显著性检测来获得基础或细节层的显著性图,然后,从显著性图中获得基础或细节层的权重图。后者使用显著性检测从红外和可见光图像中提取有关重要区域的信息,然后将关键信息集成到最终的融合图像中。通常,基于显著性的方法可以保持重要对象区域的完整性和像素强度,并提高融合图像的视觉质量。
拓展:基于显著性的图像分割

视觉显著性检测
基于稀疏表示的方法的前提是从大量高质量的图像中学习一个过完整的字典,这通常是通过联合稀疏表示或卷积稀疏表示来实现的。然后,可以通过学习的过完备字典获得源图像的稀疏表示系数,并根据给定的融合规则进行融合。最后,使用学习的过完备字典从融合的稀疏表示系数重建融合图像。
基于优化的方法通过最小化目标函数生成所需的融合结果。因此,这类方法的关键在于目标函数的设计。目标函数的构造应考虑两个方面,即整体强度保真度和纹理结构的保存。前者将融合的结果约束为具有所需的亮度分布,而后者则驱动融合的结果包含丰富的纹理细节。上述红外和可见光图像融合方法各有优缺点,混合模型结合各自的优势,提高了融合性能。

Deep Learning-Based Fusion Methods(略)

核心为了突出,所提出的STDFusionNet有两个主要的技术贡献。首先,将图像融合过程中的期望信息定义为红外图像中的显著目标和可见图像中的纹理信息。定义的期望信息可以为参数学习提供更明确的优化方向。其次,我们结合显著目标掩码设计了一种特殊的损耗,以指导网络实现显著目标检测和信息融合。这使STDFusionNet生成的融合图像能够在源图像中保留尽可能多的重要信息,并减少冗余信息的影响。

方法

Problem Formulation

图像融合的目标是从多源图像中提取重要信息,并融合互补信息以生成合成图像。这个问题的关键是如何定义最有意义的信息,以及如何融合互补信息。在红外和可见光图像融合中,最关键的信息是主要目标和纹理结构,它们分别包含在红外图像和可见光图像中。因此,我们将所需信息明确定义为红外图像中的显著目标信息和可见图像中的背景纹理结构信息。因此,基于此定义的图像融合有两个关键:

第一个关键是确定红外图像中的显著目标。通常,红外图像的重要信息主要呈现在包含可以发出更多热量的物体 (例如,行人,车辆和掩体) 的区域中。因此,网络应该学会从红外图像中自动检测这些区域。

第二个关键是从检测到的区域中准确提取所需的信息,并进行有效的融合和重建。换句话说,融合结果应准确地包含红外图像中的显著目标和可见图像中的背景纹理。

针对上述两个关键问题,设计了具体的损失函数和有效的网络结构。
首先,我们提出了一种特定的损失函数来约束融合过程,其中引入显著目标掩模来指导网络检测显著区域,同时通过确保特定区域的强度和梯度一致性来实现热目标和背景纹理的保存。
其次,我们设计了一种有效的网络结构来实现特征提取,融合和重建。具体地,特征提取网络采用伪连体网络架构对源图像进行区别对待,从而有选择地从红外图像Iir中提取显著目标特征,从可见图像Ivi中提取背景纹理特征。最终,特征重建网络融合提取的特征并重建融合图像I f,突出显示红外图像中的显著目标,同时保留可见图像的纹理细节。在上述设计下,我们的模型可以隐式实现显着目标检测和期望的信息融合。

Loss Function

损失函数确定融合图像中保留的信息类型以及各种信息之间的比例关系。我们的STDFusionNet的损失函数包括两种损失: 像素损失和梯度损失。像素损失约束融合图像的像素强度与源图像一致,而梯度损失迫使融合图像包含更详细的信息。我们为显着区域和背景区域构造像素损耗和梯度损耗。结合显著目标掩码Im,可以将期望的结果Id定义为

STDFusionNet生成的图像可以被分割成一个突出区域Im ° I f,包含热红外目标和一个带有纹理细节的背景区域 (1 − Im) ° if。

因此,我们分别在显着区域和背景区域中构建相应的损耗,以指导STDFusionNet的优化。一方面,我们将融合图像约束为具有与所需图像相同的像素强度分布。

其中H和W分别是图像的高度和宽度,而||·||1代表l1-norm。另一方面,引入梯度损耗以增强网络上的约束,以迫使具有更清晰纹理的融合图像和具有锐化边缘的显著目标。与像素损耗的定义类似,梯度损耗也包含

其中,▽ 表示梯度算子; 在本文中,我们使用Sobel算子来计算图像的梯度。

与以前的方法不同,我们将同一区域的像素损耗和梯度损耗同等对待,因此最终的损耗函数定义为

Network Architecture

我们的网络体系结构由两部分组成: 特征提取网络和特征重建网络,如图3所示:

(基于显著目标检测的红外和可见光图像融合网络的体系结构。在模型的训练中只需要构造损失函数,在测试阶段不需要掩模。)

1) Feature Extraction Network:
在CNN的基础上构建了特征提取网络,并引入了ResBlock来增强网络提取,缓解梯度消失/爆炸的问题。如图3所示,特征提取网络由一个公共层和三个可以加强提取的信息的重新块组成。公共层由内核尺寸为5 × 5的卷积层和泄漏的整流线性单元激活层组成。每个Resblock由三个卷积层组成,分别称为Conv1,Conv2和Conv3,以及一个skip连接的身份映射卷积层,称为身份conv。除Conv2的内核大小为3 × 3外,所有卷积层的内核大小均为1 × 1。

Conv1和Conv2都使用 ReLU作为激活函数,而Conv3和identity conv的输出求和,再使用ReLU激活函数。identity conv旨在克服重块输入和输出的不一致维数。值得注意的是,考虑到红外和可见光图像的不同属性,两个特征提取网络都使用相同的网络体系结构,但是各自的参数是独立训练的。结合所提出的损失函数,特征提取网络可以从源图像中提取显著特征和纹理细节特征。

2) Feature Reconstruction Network:

特征重建网络由四个ResBlocks组成,分别发挥特征融合和图像重建的作用。值得注意的是,最后一层的激活功能使用Tanh来确保融合图像的变化范围与输入图像的变化范围一致。特征提取网络的输入是红外卷积特征和可见卷积特征在信道维度上的串联,其输出是融合图像。众所周知,信息丢失是图像融合任务中的灾难性问题。因此,在STDFusionNet的所有卷积层中,填充设置为相同,而步幅设置为1。结果,我们的网络不会引入任何降采样,并且融合图像的大小与源图像一致。
显著目标掩模的目的是突出显示在红外图像中辐射大量热量的对象 (例如,行人,车辆和掩体)。因此,我们使用LabelMe工具箱来注释红外图像中的显着目标,并将其转换为二进制显着目标掩模。然后,反转显著目标掩码以获得背景掩码。之后,我们将显着目标掩模和纹理背景掩模与像素级别的红外图像和可见图像相乘,分别获得源显着目标区域和源背景纹理区域。此外,融合图像还与像素级的显著目标掩模和纹理背景掩模相乘,以接收融合的显著目标区域和融合的背景区域。随后,应用原始显著区域、原始背景区域、融合显著区域和融合背景区域构建特定损失函数,指导网络隐式实现显著目标检测和信息融合。

显著目标检测:IVIF相关推荐

  1. 微调torchvision 0.3的目标检测模型

    微调torchvision 0.3的目标检测模型 本文将微调在 Penn-Fudan 数据库中对行人检测和分割的已预先训练的 Mask R-CNN 模型.它包含170个图像和345个行人实例,说明如何 ...

  2. 部署可扩展的目标检测管道:推理过程(下)

    部署可扩展的目标检测管道:推理过程(下) 融合 感兴趣的目标可以被遮挡.有时只能看到目标的一小部分(少至几个像素). • 图19.车辆和交通信号灯被遮挡. • 图20:阻塞了总线. • 图21:左侧的 ...

  3. 目标检测推理部署:优化和部署

    目标检测推理部署:优化和部署 本文简要介绍了端对端推理管道的优化技术和部署. 将在以下三个方面研究推理优化过程:硬件优化,软件优化和模型优化.推理优化的关键指标如下: • 吞吐量(未推理图像/秒) • ...

  4. 部署可扩展的目标检测管道:推理过程(上)

    部署可扩展的目标检测管道:推理过程(上) 基于YOLOv3的目标检测推理过程的所有代码都可以在eriklindernoren/PyTorch-YOLOv3 GitHub repo找到. 为了进行审查, ...

  5. 大数据目标检测推理管道部署

    大数据目标检测推理管道部署 本文提供了一个用于对象检测的深度学习推理的概述. 自主车辆软件开发需要大规模的数据.计算和算法创新,这些都是gpu实现的.一组神经网络构成了感知和决策系统的基础.神经网络的 ...

  6. GPU端到端目标检测YOLOV3全过程(下)

    GPU端到端目标检测YOLOV3全过程(下) Ubuntu18.04系统下最新版GPU环境配置 · 安装显卡驱动 · 安装Cuda 10.0 · 安装cuDNN 1.安装显卡驱动 (1)这里采用的是P ...

  7. GPU端到端目标检测YOLOV3全过程(上)

    GPU端到端目标检测YOLOV3全过程(上) Basic Parameters: Video: mp4, webM, avi Picture: jpg, png, gif, bmp Text: doc ...

  8. Mask R-CNN用于目标检测和分割代码实现

    Mask R-CNN用于目标检测和分割代码实现 Mask R-CNN for object detection and instance segmentation on Keras and Tenso ...

  9. 目标检测数据集The Object Detection Dataset

    目标检测数据集The Object Detection Dataset 在目标检测领域,没有像MNIST或Fashion MNIST这样的小数据集.为了快速测试模型,我们将组装一个小数据集.首先,我们 ...

最新文章

  1. jupyter % 符号用法
  2. Java的jar文件安装成windows 服务
  3. linux内核栈,内核同步,用户空间线程同步
  4. 深度学习笔记:利用numpy从零搭建一个神经网络
  5. 服务器将office转pdf文件,Windows服务-Office转PDF文件
  6. 王传福回应“芯片短缺”:比亚迪没有受到丝毫影响
  7. Glut 回调函数小结
  8. postgresql查看死锁及解决方法
  9. python100例详解-【学习笔记】python100例
  10. 在Intellij idea中快速重写父类方法
  11. 百度首页代码(HTML+CSS+jQuery)
  12. Win10任务栏卡死解决方法
  13. 输入一个字符串,输出该字符串中字符的所有组合。(腾讯2014笔试附加题)
  14. [机房测试]数字谜题
  15. php 百度逆地理编码,百度地图开放平台 Web服务API --Geocoding API (地理编码和逆地理编码)...
  16. 智慧城市背景下的“多规合一”标准探究
  17. 为什么Netty使用NIO而不是AIO
  18. Husky 的报错及简易配置
  19. 整理mysql面试题55题(含答案)
  20. 妙控2代鼠标用于Windows系统注册表修改方法

热门文章

  1. Desktop Duplication API(桌面拷贝API)
  2. 小米平板1(A0101)官方线刷包_救砖包_解账户锁
  3. Centos破解密码
  4. jQuery选择器ID、CLASS、标签获取对象值、属性、设置css样式
  5. 草履虫都学会了的超级简单C语言小游戏(附带恶作剧)
  6. Win8.1系统所有的路径都无法更改文件夹名称
  7. KaLi Linux 安装sougou输入法
  8. 【文献摘录】FaceRevelio: A Face Liveness Detection System forSmartphones with a Single Front Camera
  9. c# 检测中英输入法_用C#控制当前输入法
  10. r2_score与accuracy_score的区别