作者丨phantom@知乎

来源丨https://zhuanlan.zhihu.com/p/501101943

编辑丨3D视觉工坊

本文介绍我们近期的两篇文章 MST 与 MST++,其中MST已被 CVPR 2022 接收,MST++ 被 CVPRW 2022 接收,并在 NTIRE 2022 Spectral Reconstruction Challlenge 中取得第一名。

图1 MST 与 MST++ 与 SOTA 算法的对比图。横轴代表计算量,纵轴代表性能,圆半径代表参数量。

先验货,MST 与 MST++ 与 SOTA 方法对比如图1所示,很轴为计算量,纵轴为性能,圆半径代表参数量。MST 与 MST++ 占据了左上角,参数量也非常小,实现多快好省的高光谱图像重建。

文章一:《Mask-guided Spectral-wise Transformer for Efficient Hyperspectral Image Reconstruction》

paper:arxiv.org/abs/2111.0791

code:https://github.com/caiyuanhao1998/MST

文章二:《MST++: Multi-stage Spectral-wise Transformer for Efficient Spectral Reconstruction》

paper:arxiv.org/abs/2204.0790

code:github.com/caiyuanhao19

1. 高光谱图像简介

高光谱图像(Hyperspectral Image, HSI)指的是光谱分辨率在 0.01λ数量级范围内的光谱图像。相较于常规的RGB图像而言,高光谱图像有着更多的波段(即通道数更多如31,28)来更加准确全面的描述被捕获场景的特性。在很多时候,从RGB图像中无法观测出异常,但是从高光谱图像的某一个波段中却能一眼看出问题所在。这么说可能不太好理解,举个例子,比如在深夜,如果直接看RGB图像的话,可能是一片漆黑,但是如果通过红外夜视仪的话,就能很清晰看到发热的活物。这个红外夜视仪捕获的就是红外光谱图像。也正因为光谱图像有着这样的特性,它被广泛地应用于目标检测与追踪,图像识别,遥感,医疗影像等领域。

图2 高光谱图像的应用场景举例

那么既然高光谱图像那么有用,我们应该如何获取它呢?传统的成像设备采用光谱仪对成像场景进行空间域通道维度的扫描,费时费力,不适用于运动场景。近些年,科学家们专门设计了快照压缩成像(Snapshot Compressive Imaging,SCI)系统来解决这一问题。在诸多SCI系统当中,编码孔径快照光谱成像(Coded Aperture Snapshot Spectral Imaging)系统脱颖而出,成为捕获获取光谱图像的重要手段,其结构如图2所示

图3 编码孔径快照光谱成像系统示意图

CASSI系统首先通过一个编码孔径掩膜对成像场景的各光谱通道进行调制,然后通过一个三棱镜进行色散后在相机上生成一个二维的快照估计图(compressive measurement)。那么有一种获取高光谱图像的方法就是用CASSI结合从measurement到HSI的复原算法,我们将这样的方法记为SCI-to-HSI。

这种方法好不好?好,但是还不够好。为什么呢?因为CASSI的设备很贵,价格在 10,000 到 100,000 美金。不过它有一个优势就是,存储的时候只需要存储二维的measurement,这可以极大降低存储与传输数据的成本。

那么,聪明的朋友可能就会发现了,既然本质上RGB和HSI都是同一场景的不同光谱通道成像,既然深度学习模型如 CNN,Transformer 又无所不能,那我何不直接学习一个从 RGB 到 HSI 的映射呢?RGB 相机遍地都是,RGB 图像遍地都是,RGB-to-HSI 的映射要是学得好,那岂不是点石成金,想啥来啥?何必还要破费买CASSI系统?没有中间商赚我几万美金的差价,这简直是零糖零卡零负担。正是基于 RGB-to-HSI 的构想,NTIRE 举办了 Spectral Reconstruction Challenge 并提供了相应的数据集。

我们的两个工作 MST 与 MST++ 就分别针对 SCI-to-HSI 与 RGB-to-HSI 设计了历史上第一个用于高光谱图像重建的 Transformer。

2. 高光谱图像复原算法

2.1 MST 用于 SCI-to-HSI 的高光谱图像复原

针对从 2D measurement 到 3D HSI cube 的光谱图像复原,我们提出了 Mask-guided Spectral-wise Transformer (MST),如图3 (a) 所示。MST是一个对称的 U 形的网络,其基本组成单元为 Mask-guided Self-Attention Block (MSAB), 如图3 (b) 所示。MSAB 中最重要的就是 Mask-guided Spectral-wise Multi-head Self-Attention (MS-MSA)。MSAB 包含两个 Layer Normalization (LN),一个 MS-MSA 和一个前向神经网络 Feed Forward Network (FFN),如图3 (c) 所示。

图4 MST的结构示意图

其中的 MS-MSA 又可以拆解为两部分,即 Mask-guided Mechanism (MM) 和 Spectral-wise Multi-head Sefl-Attention (S-MSA)。为了避免大家觉得枯燥无味,这里就不给大家看比较琐屑的公式了。下面我会用语言大概介绍一下,相关细节请参照原文。MS-MSA的结构如图5所示

图5 MS-MSA结构示意图

S-MSA:其中,S-MSA的机构示意图如图5 (c1) 所示。通常来说,之前的Transformer将一个 pixel vector 作为一个token。然而,高光谱具有空间稀疏而通道上高度相似的特性,因此,计算空间维度的 self-attention 会比计算光谱通道维度的 self-attention 更加低效。基于这样一个motivation,S-MSA 将每一个光谱通道的特征图作为一个 token 去计算 self-attention。

MM:在 CASSI 成像过程中,我们注意到编码孔径掩膜(mask)被用来进行调制,而 mask 上各个位置的透光率不同,导致了生成 measurement 上的各个位置的保真度不同。因此为了获得保真度随空间位置变化的信息,我们将 mask 作为输入生成 Mask Attention Map,然后作用在 S-MSA 的 value 上,如图5 (c2) 所示。

定量对比:在 KAIST 数据集上的效果如表1 所示。参数量-计算量-性能对比如表2 所示,可以看到,我们的MST采用更少的参数量与计算量,取得了更好的效果。画成对比图的话就如图1 所示。MST 占据了左上角。

表1 MST 与 SOTA 方法在 KASIT 数据集上的性能内对比

表2 MST 与 部分开源 SOTA 方法的性能-参数量-计算量对比

定性对比:在 simulation 和 real 数据上的定性对比分别如图6和图7所示。MST恢复出更多的光谱细节,同时从光谱曲线上来看,也取得了更高的 consistency, 更印证了我们方法的优越性。

图6 MST 与 SOTA 方法在 simulation 数据上的定性对比图

图7 MST 与 SOTA 方法在 real 数据上的定性对比图

2.2 MST++ 用于 RGB-to-HSI 的高光谱图像复原

MST++ 是 MST 的后续工作,其全称为 Multi-stage Spectral-wise Transformer。顾名思义,这很好理解,就是将MST 的 MM 去掉,然后改成首尾串联的多阶段网络。输入变成 RGB 图像,输出还是 HSI。其框架如图8所示。

图8 MST++ 算法结构示意图

定量对比:MST++ 与其他 SOTA 方法在 NTIRE 2022 的 validation 和 test 数据集上的对比如表3所示。我们的MST++ 依旧使用更少的计算量和参数量,达到了更高的性能指标,同时取得了 NTIRE 2022 Challenge on Spectral Reconstruction from RGB 的冠军。

表3 MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 和 test 数据集上的性能对比

定性对比:MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 数据集上的定性对比如图9和图10所示。

图9 MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 数据集上的定性对比

图10 MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 数据集上的定性对比

目前为止,从 RGB 到 HSI 图像复原的研究缺乏一个好用的 baseline,我们将我们的方法连同 10 个 SOTA 复原算法,预训练模型,都开源在了MST++,希望推动这个方向的发展。

3. 小结

针对从快照压缩估计图(measurement)和从常规图像(RGB)重建出高光谱图像,我们分别提出了领域内第一个基于Transformer的方法,MST 与 MST++,以更少的参数量,更低的计算量取得了更高的性能。同时,我们的MST++ 还取得了 NTIRE 2022 Challenge on Spectral Reconstruction 的第一名。

备注:作者也是我们「3D视觉从入门到精通」特邀嘉宾:一个超干货的3D视觉学习社区

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

CVPR 2022 | 多快好省的高光谱图像重建相关推荐

  1. 【CV】CVPR2021高光谱图像重建论文笔记

    论文名称:Deep Gaussian Scale Mixture Prior for Spectral Compressive Imaging 论文下载:link 论文年份:CVPR 2021 论文被 ...

  2. 何恺明时隔2年再发一作论文:为视觉大模型开路,“CVPR 2022最佳论文候选预定”...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 杨净 明敏 雷刚 发自 凹非寺 量子位 报道 | 公众号 QbitA ...

  3. CVPR 2022 3月7日论文速递(17 篇打包下载)涵盖 3D 目标检测、医学影像、图像去模糊、车道线检测等方向

    CVPR2022论文速递系列: CVPR 2022 3月3日论文速递(22 篇打包下载)涵盖网络架构设计.姿态估计.三维视觉.动作检测.语义分割等方向 CVPR 2022 3月4日论文速递(29 篇打 ...

  4. 一文尽览 CVPR 2022 workshop 所有算法竞赛

    关注公众号,发现CV技术之美 前几天总结了 CVPR 2022 中所有Workshop主要内容(一文了解 CVPR 2022 Workshop 都要做什么),其中不少workshop同时也是有算法竞赛 ...

  5. CVPR 2022 论文列表(持续更新)

    本文包括论文链接及代码 关注公众号:AI基地,及时获取最新资讯,学习资料 GitHub链接:GitHub - gbstack/cvpr-2022-papers: CVPR 2022 papers wi ...

  6. CVPR 2022 最新106篇论文分方向整理|包含目标检测、动作识别、图像处理等32个方向

    CVPR 2022 已经放榜,本次一共有2067篇论文被接收,接收论文数量相比去年增长了24%.在CVPR2022正式会议召开前,为了让大家更快地获取和学习到计算机视觉前沿技术,极市对CVPR022 ...

  7. 何恺明一作MAE收录CVPR 2022 Oral!高达87.8%准确率!自监督领域新代表作

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:happy   |  转载自:极市平台 导读 何恺明提出一种用于计算机视觉的可扩展自监督学习方案Mas ...

  8. 英伟达这篇CVPR 2022 Oral火了!2D图像秒变逼真3D物体!虚拟爵士乐队来了!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 你见过乐器自己演奏么?看看这个: 图1. "活灵活现"的虚拟乐器还是在 NVIDIA 服 ...

  9. CVPR 2022 | 腾讯AI Lab入选论文解读,关注图像理解、生成、建模及可信AI

    感谢阅读腾讯AI Lab微信号第147篇文章.本文介绍腾讯 AI Lab 被 CVPR 2022 收录的研究成果. CVPR(Conference on Computer Vision and Pat ...

最新文章

  1. 谷歌开源NLP模型可视化工具LIT,模型训练不再「黑箱」
  2. HALCON基于灰度值的模板匹配
  3. 《DSP using MATLAB》示例Example7.22
  4. 写一个函数返回参数二进制中 1 的个数
  5. 《BI那点儿事》Microsoft 决策树算法——找出三国武将特性分布,献给广大的三国爱好者们...
  6. 如何在Excel中使用VB宏连接SAP系统
  7. scala创建并使用Enumerations
  8. Codeforces Round #636 (Div. 3) D. Constant Palindrome Sum 思维 + 差分
  9. java数组的四个要素_Java零基础系列教程04Java数组
  10. 前端的深拷贝和浅拷贝_javascript中的深拷贝和浅拷贝?
  11. “越来越多的年轻人,都向往去体制里面工作”你怎么看?
  12. 事务屏幕创建tcode_数据库并发事务存在的问题(脏读、不可重复读、幻读等)...
  13. Python Selenium 浏览器点击操作
  14. Graph2Vec运行
  15. vs2013_update5下载链接(请使用迅雷下载)
  16. 怎样有效提高记忆力?
  17. django 查询优化之 select_related 和 prefetch_related
  18. 输入一个十六进制的字符串,输出其相应的十进制数。
  19. android app 瘦身,android 将程序移入system/app 为系统瘦身
  20. 大数据时代,你应该具备的大数据思维

热门文章

  1. 进化算法可以不再需要计算集群,开普敦大学的新方法用一块GPU也能刷新MNIST记录...
  2. MeeGo的中国救亡之路:Jolla与迪信通牵手合作
  3. T-SQL中删除语句区别 - 转自: 搜搜问问
  4. ACM学习历程—BestCoder 2015百度之星资格赛1002 列变位法解密(vector容器)
  5. tag untag_Vlan中的 PVID vid tag untag 常识理论
  6. 动态规划的框架(套路), 总结
  7. c++中string的assign方法使用
  8. 一、【s3c2440移植u-boot-2016-11】拷贝代码并在NOR Flash上启动u-boot
  9. 【故障分析】轴承故障分析(时频图+功率谱)含Matlab源码
  10. 第八章 实践 运行代码