【互信息驱动：可逆神经网络】

Mutual Information-driven Pan-sharpening

（互信息驱动的全色锐化）

全色锐化的目的是综合纹理丰富的全色图像和多光谱图像的互补信息，生成纹理丰富的多光谱图像。尽管已有的全色锐化方法取得了显著的进步，但它们并没有明确地加强PAN和MS图像两种模态之间的互补信息学习。这导致信息冗余没有得到很好的处理，进一步限制了这些方法的性能。针对上述问题，提出了一种基于互信息驱动的泛锐化框架。具体地说，首先将PAN和MS图像分别投影到模态感知特征空间，然后对它们施加互信息最小化以明确地鼓励互补信息学习。这种操作能够减少信息冗余，提高模型性能。在多个卫星数据集上的实验结果表明，该算法在定性和定量上均优于现有方法，对真实场景具有较强的泛化能力。

介绍

随着遥感技术的飞速发展，爆炸物卫星图像被广泛应用于军事、环境监测、测绘等领域。由于物理条件的限制，卫星通常同时捕获多光谱（MS）和全色（PAN）传感器以获得互补信息。MS图像具有较高的光谱分辨率，但空间分辨率有限; PAN图像具有丰富的空间信息，但光谱分辨率较低。为了获得高光谱和高空间分辨率的遥感影像，融合MS和PAN影像的全色锐化技术受到了影像处理界和遥感界的广泛关注。
作为融合任务，已经开发了具有两种主要融合策略的相当多的全色锐化方法：1）图像级融合和2）特征级融合。如图1（a）所示，第一类在将MS和PAN图像馈送到网络之前沿着信道维度直接连接MS和PAN图像。
由于没有明确地进行跨模态融合，因此“input fusion”策略在研究互补信息方面受到限制，从而导致不令人满意的性能。
第二类尝试从PAN和MS图像中独立提取模态感知特征，然后在特征空间中进行信息融合，如图1（b）所示。
尽管取得了令人鼓舞的进展，但仍存在以下问题。由于PAN和MS图像以不同的模态捕获相同的场景，因此它们包含共享信息以及独特特征，如图3所示。
然而，现有的全色锐化方法并没有明确地执行PAN和MS图像两种模态之间的互补信息学习，从而导致学习特征的冗余和所谓的复制伪影。针对现有方法的局限性，本文通过加强互补特征学习和减少信息冗余来提高全色锐化的性能。

如图1（c）所示，我们提出了一种新的级联方式的互信息驱动全色锐化框架，详细流程如图4所示。
该算法首先将MS和PAN图像分别送入两个独立的卷积分支获取模态感知特征，然后对它们施加互信息最小化，以促进互补信息由浅入深的学习。具体地，将所获得的模态感知特征进一步转换为低维特征向量以计算互信息，其中，后一级特征向量是根据以下两种方式获得的：1)特征向量计算中的当前层模态特征和2）前一层直接处理特征。这种操作能够减少信息冗余，如图2所示。
在获得精细特征后，设计了一个后融合模块，通过配置有效的可逆神经网络将其投影回期望的MS图像。在多个卫星数据集上的实验结果表明，该算法在定性和定量上均优于现有方法，对真实场景具有较强的泛化能力。

贡献

1）我们设计了一种新的级联互信息最小化全色锐化框架。据我们所知，这是第一次尝试明确鼓励MS和PAN模态之间的多模态学习。该模型减少了全色锐化过程中的信息冗余，减轻了全色锐化过程中的伪影。
2）在多个卫星数据集上的大量实验结果表明，该算法相对于现有算法具有较好的性能。在真实世界全分辨率卫星场景中也验证了该算法的泛化能力。

方法

我们将PAN图像表示为P ∈ RH×W×1R^{H×W×1}RH×W×1，其对应的MS图像首先以与M ∈ RH×W×CR^{H×W×C}RH×W×C相同的空间分辨率P进行上采样。

Model architecture

如图4所示，我们提出的方法由三个模块组成：PAN和MS图像的模态感知特征提取、互信息约束和基于可逆神经网络（Invertible neural networks (INN)）的后融合模块。
Modality-aware feature extraction. 首先采用两个独立的特征提取分支，以核大小为3 × 3的卷积层为基本成分，将PAN和MS图像从浅到深投影到模态感知特征映射上。具体地，这些特征被表示为P₁、P₂、、、P_K和M₁、M₂、、、M_K分别进行比较。两者都配备了H ×W × C的尺寸。假设两个分支分别表示为f_p和f_m，则该过程可写为

Mutual information.
参照上述PAN特征P₁、P₂、、、P_K和MS特征M₁、M₂、、、M_K，我们首先将它们转换成低维特征向量以准备互信息。具体地说，首先将第一层特征P₁和M₁分别送入一个核大小为3 × 3的卷积层（信道维为P1P^1P1_T和M1M^1M1_T），然后再送入两个全连通层（全连通层接收上述整形后的特征），得到低维特征向量E_p1和E_m1。

其中C₃、FC_s分别表示核大小为3×3的卷积层和全连通层。在后一层特征方面，以第i层为例，特征向量是通过组合先前的中间特征变换Pi−1T、P^{i−1}~T~、Pi−1 T 、M^{i−1}_T和当前的模态特征P_i、M_i而获得的。1)P_i和M_i被馈送到用于信道缩减的两个不同的卷积层; 2）减少特征与先前的中间特征Pi−1T和P^{i−1}~T~和Pi−1 T 和M^{i−1}_T相加;3)所获得的特征进一步通过卷积层和两个全连通层，以生成低维特征向量E_pi和E_mi
其中C₃表示核大小为3 × 3的卷积，采用非共享权重方式。最后，给定PAN图像的模态感知特征向量E_p1，E_p2，，，E_pK和MS图像的E_m1、E_m2、、、E_mK，我们引入互信息最小化来加强两个模态的互补信息学习，从而减少信息冗余。
在信息论中，互信息旨在测量通过观察一些其他随机变量E_mi获得的关于随机变量E_pi的信息量，反之亦然
其中H（.）表示熵，i ∈ [1，K]，其中K为特征提取的级数，H(E_mi)，H(E_pi)表示边缘熵，H(E_pi，E_mi)和H(E_mi，E_pi)是联合熵，H(E_pi|E_mi)和H(E_mi|E_pi)是条件熵。然后，对上述方程进行积分，我们可以得出

在此基础上，我们引入了Kullback-Leibler散度（KL）来计算熵

INN block.
通过互信息最小化，减少了模态特征的冗余度。其次，设计了一种有效的基于可逆神经网络的后融合模块。基本组件是前人所提出的耦合层，并堆叠以有效融合在细化模态特征之上，从而投射回预期MS图像。深入到耦合层，卷积模块由半实例归一化模块实现。

Optimization

如图4所示，总损失函数由两部分组成：一个用于通过L1损失重建地面实况MS图像，另一个用于减少两个模态之间的信息冗余，写为：