CVPR 2022 | 多快好省的高光谱图像重建

作者丨phantom@知乎

来源丨https://zhuanlan.zhihu.com/p/501101943

编辑丨3D视觉工坊

本文介绍我们近期的两篇文章 MST 与 MST++，其中MST已被 CVPR 2022 接收，MST++ 被 CVPRW 2022 接收，并在 NTIRE 2022 Spectral Reconstruction Challlenge 中取得第一名。

图1 MST 与 MST++ 与 SOTA 算法的对比图。横轴代表计算量，纵轴代表性能，圆半径代表参数量。

先验货，MST 与 MST++ 与 SOTA 方法对比如图1所示，很轴为计算量，纵轴为性能，圆半径代表参数量。MST 与 MST++ 占据了左上角，参数量也非常小，实现多快好省的高光谱图像重建。

文章一：《Mask-guided Spectral-wise Transformer for Efficient Hyperspectral Image Reconstruction》

paper：arxiv.org/abs/2111.0791

code：https://github.com/caiyuanhao1998/MST

文章二：《MST++: Multi-stage Spectral-wise Transformer for Efficient Spectral Reconstruction》

paper：arxiv.org/abs/2204.0790

code：github.com/caiyuanhao19

1. 高光谱图像简介

高光谱图像（Hyperspectral Image, HSI）指的是光谱分辨率在 0.01λ数量级范围内的光谱图像。相较于常规的RGB图像而言，高光谱图像有着更多的波段（即通道数更多如31，28）来更加准确全面的描述被捕获场景的特性。在很多时候，从RGB图像中无法观测出异常，但是从高光谱图像的某一个波段中却能一眼看出问题所在。这么说可能不太好理解，举个例子，比如在深夜，如果直接看RGB图像的话，可能是一片漆黑，但是如果通过红外夜视仪的话，就能很清晰看到发热的活物。这个红外夜视仪捕获的就是红外光谱图像。也正因为光谱图像有着这样的特性，它被广泛地应用于目标检测与追踪，图像识别，遥感，医疗影像等领域。

图2 高光谱图像的应用场景举例

那么既然高光谱图像那么有用，我们应该如何获取它呢？传统的成像设备采用光谱仪对成像场景进行空间域通道维度的扫描，费时费力，不适用于运动场景。近些年，科学家们专门设计了快照压缩成像（Snapshot Compressive Imaging，SCI）系统来解决这一问题。在诸多SCI系统当中，编码孔径快照光谱成像（Coded Aperture Snapshot Spectral Imaging）系统脱颖而出，成为捕获获取光谱图像的重要手段，其结构如图2所示

图3 编码孔径快照光谱成像系统示意图

CASSI系统首先通过一个编码孔径掩膜对成像场景的各光谱通道进行调制，然后通过一个三棱镜进行色散后在相机上生成一个二维的快照估计图（compressive measurement）。那么有一种获取高光谱图像的方法就是用CASSI结合从measurement到HSI的复原算法，我们将这样的方法记为SCI-to-HSI。

这种方法好不好？好，但是还不够好。为什么呢？因为CASSI的设备很贵，价格在 10,000 到 100,000 美金。不过它有一个优势就是，存储的时候只需要存储二维的measurement，这可以极大降低存储与传输数据的成本。

那么，聪明的朋友可能就会发现了，既然本质上RGB和HSI都是同一场景的不同光谱通道成像，既然深度学习模型如 CNN，Transformer 又无所不能，那我何不直接学习一个从 RGB 到 HSI 的映射呢？RGB 相机遍地都是，RGB 图像遍地都是，RGB-to-HSI 的映射要是学得好，那岂不是点石成金，想啥来啥？何必还要破费买CASSI系统？没有中间商赚我几万美金的差价，这简直是零糖零卡零负担。正是基于 RGB-to-HSI 的构想，NTIRE 举办了 Spectral Reconstruction Challenge 并提供了相应的数据集。

我们的两个工作 MST 与 MST++ 就分别针对 SCI-to-HSI 与 RGB-to-HSI 设计了历史上第一个用于高光谱图像重建的 Transformer。

2. 高光谱图像复原算法

2.1 MST 用于 SCI-to-HSI 的高光谱图像复原

针对从 2D measurement 到 3D HSI cube 的光谱图像复原，我们提出了 Mask-guided Spectral-wise Transformer (MST)，如图3 (a) 所示。MST是一个对称的 U 形的网络，其基本组成单元为 Mask-guided Self-Attention Block (MSAB), 如图3 (b) 所示。MSAB 中最重要的就是 Mask-guided Spectral-wise Multi-head Self-Attention (MS-MSA)。MSAB 包含两个 Layer Normalization (LN)，一个 MS-MSA 和一个前向神经网络 Feed Forward Network (FFN)，如图3 (c) 所示。

图4 MST的结构示意图

其中的 MS-MSA 又可以拆解为两部分，即 Mask-guided Mechanism (MM) 和 Spectral-wise Multi-head Sefl-Attention (S-MSA)。为了避免大家觉得枯燥无味，这里就不给大家看比较琐屑的公式了。下面我会用语言大概介绍一下，相关细节请参照原文。MS-MSA的结构如图5所示

图5 MS-MSA结构示意图

S-MSA：其中，S-MSA的机构示意图如图5 (c1) 所示。通常来说，之前的Transformer将一个 pixel vector 作为一个token。然而，高光谱具有空间稀疏而通道上高度相似的特性，因此，计算空间维度的 self-attention 会比计算光谱通道维度的 self-attention 更加低效。基于这样一个motivation，S-MSA 将每一个光谱通道的特征图作为一个 token 去计算 self-attention。

MM：在 CASSI 成像过程中，我们注意到编码孔径掩膜（mask）被用来进行调制，而 mask 上各个位置的透光率不同，导致了生成 measurement 上的各个位置的保真度不同。因此为了获得保真度随空间位置变化的信息，我们将 mask 作为输入生成 Mask Attention Map，然后作用在 S-MSA 的 value 上，如图5 (c2) 所示。

定量对比：在 KAIST 数据集上的效果如表1 所示。参数量-计算量-性能对比如表2 所示，可以看到，我们的MST采用更少的参数量与计算量，取得了更好的效果。画成对比图的话就如图1 所示。MST 占据了左上角。

表1 MST 与 SOTA 方法在 KASIT 数据集上的性能内对比

表2 MST 与部分开源 SOTA 方法的性能-参数量-计算量对比

定性对比：在 simulation 和 real 数据上的定性对比分别如图6和图7所示。MST恢复出更多的光谱细节，同时从光谱曲线上来看，也取得了更高的 consistency，更印证了我们方法的优越性。

图6 MST 与 SOTA 方法在 simulation 数据上的定性对比图

图7 MST 与 SOTA 方法在 real 数据上的定性对比图

2.2 MST++ 用于 RGB-to-HSI 的高光谱图像复原

MST++ 是 MST 的后续工作，其全称为 Multi-stage Spectral-wise Transformer。顾名思义，这很好理解，就是将MST 的 MM 去掉，然后改成首尾串联的多阶段网络。输入变成 RGB 图像，输出还是 HSI。其框架如图8所示。

图8 MST++ 算法结构示意图

定量对比：MST++ 与其他 SOTA 方法在 NTIRE 2022 的 validation 和 test 数据集上的对比如表3所示。我们的MST++ 依旧使用更少的计算量和参数量，达到了更高的性能指标，同时取得了 NTIRE 2022 Challenge on Spectral Reconstruction from RGB 的冠军。

表3 MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 和 test 数据集上的性能对比

定性对比：MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 数据集上的定性对比如图9和图10所示。

图9 MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 数据集上的定性对比

图10 MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 数据集上的定性对比

目前为止，从 RGB 到 HSI 图像复原的研究缺乏一个好用的 baseline，我们将我们的方法连同 10 个 SOTA 复原算法，预训练模型，都开源在了MST++，希望推动这个方向的发展。

3. 小结

针对从快照压缩估计图（measurement）和从常规图像（RGB）重建出高光谱图像，我们分别提出了领域内第一个基于Transformer的方法，MST 与 MST++，以更少的参数量，更低的计算量取得了更高的性能。同时，我们的MST++ 还取得了 NTIRE 2022 Challenge on Spectral Reconstruction 的第一名。

备注：作者也是我们「3D视觉从入门到精通」特邀嘉宾：一个超干货的3D视觉学习社区

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~