WACV 2020 | 基于2D卷积处理成本签名的快速立体匹配

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

本文由知乎作者青青韶华授权转载，不得擅自二次转载。

原文链接：https://zhuanlan.zhihu.com/p/120914353

论文题目：Fast Deep Stereo with 2D Convolutional Processing of Cost Signatures

论文地址：https://arxiv.org/abs/1903.04939v1

开源代码：https://github.com/ayanc/fdscs

本文介绍Amazon和华盛顿大学在WACV 2020上的论文《Fast Deep Stereo with 2D Convolutional Processing of Cost Signatures》，他们在这篇工作中提出了一个实时的深度立体匹配网络，在GPU上可以达到48FPS。

首先来看和其他SOTA实时网络的对比，借此机会可以简单回顾一下基于深度模型的实时立体匹配的进展。

从右往左看，[19]是MADNet，CVPR 2019的Oral，第一个自适应的实时立体匹配网络。所提方法和MADNet的速度差不多，不过准确率要更高，毕竟所提方法是基于全监督的，而MADNet在真实数据上是无监督的，性能会有所降低。

[10] 是2017年发表在MLSP上的一篇文章，它采用传统的匹配成本和传统的成本聚合流程，利用一个可学习的深度网络来控制不同区域的成本聚合参数。由于利用了传统匹配方法的快速性。虽然它的速度可达29FPS，不过精度却比较低。

[4]是Uber在ICCV 2019新提出的DeepPruner，借鉴传统的PatchMatch方法，将其设计为可导的RNN形式，来避免cost volume中大量重复的计算，速度可达62ms，大约16FPS。准确率较高，不过速度不是很快。

再往左是一些经典的深度立体匹配模型，DispNetC（CVPR 16），iRetNet（CVPR 18），SegStereo（ECCV 18），GA-Net（CVPR 19），这里不再一一介绍。

一、Motivation

当前基于深度模型的立体匹配网络虽然准确率很高，但是速度非常慢，这主要受限于计算代价过高的匹配代价体（cost volume）以及用来进行成本聚合的含参量较大的3D卷积。如果只采用2D卷积进行代价聚合，速度将会大大提升。

受之前工作的启发，在给定少量的稀疏深度度量和彩色参考图像后，就能够重构出准确率较高的深度图（KITTI其实就只给定了稀疏的视差标签，但是由此训练的模型可以预测准确的密集视差图）。这表明微弱的，带噪声的深度信息已经是足够的。

二、Method

上图是论文提出方法的框架图。主要分为三部分：

1. 利用传统算法快速得到初始的匹配代价；

2. 利用卷积层将其映射为成本签名（cost signature map）；

3. 利用类似U-Net的2D卷积计算的编码-解码结构得到最终的视差图。

其中第1步是固定不变的，而后两步构成了可学习的端到端网络。

具体来说，第1步中首先将图像下采样到原图的一半分辨率。将图像从RGB图像转到YUV空间。对于亮度Y通道，采用基于汉明距离的传统匹配成本计算方法。对于颜色信息的U和V通道，采用两个通道的绝对值构成cost volume。

第2步中提出的成本签名可以看做是一种低维度的cost volume，因此第2步的目的就是使用1*1卷积进行cost volume的逐步降维。

第3步中利用基于2D卷积的U-Net结构，相比于之前的3D卷积，速度更快，参数量更少。并且使用彩色参考图像作为引导，最后将得到的1/2分辨率视差图经过上采样得到全分辨率的视差图。

三、Experiments

作者主要在KITTI 2012和2015数据集上进行实验，对于一个实时的网络，所提出的方法做到了在相同速度条件下的精度优势，和在相同精度下的速度优势。

四、Conclusion

在立体匹配领域，最近的框架没有很大的不同，但是一种趋势是从传统方法上找灵感，用的比较多的就是将传统方法以深度网络的形式来实现，并嵌入到端到端的CNN中。本文也属于这类方法，不过从端到端的角度看，第1步仍然是人为的前处理过程，整体上还不是端到端的，这可能是一个可以改进的地方。

上述内容，如有侵犯版权，请联系作者，会自行删文。

推荐阅读：

吐血整理|3D视觉系统化学习路线

那些精贵的3D视觉系统学习资源总结（附书籍、网址与视频教程）

超全的3D视觉数据集汇总

大盘点|6D姿态估计算法汇总(上)

大盘点|6D姿态估计算法汇总（下）

机器人抓取汇总|涉及目标检测、分割、姿态识别、抓取点检测、路径规划

汇总|3D点云目标检测算法

汇总|3D人脸重建算法

那些年，我们一起刷过的计算机视觉比赛

总结|深度学习实现缺陷检测

深度学习在3-D环境重建中的应用

汇总|医学图像分析领域论文

大盘点|OCR算法汇总

重磅！3DCVer-知识星球和学术交流群已成立

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导，770+的星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

欢迎加入我们公众号读者群一起和同行交流，目前有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加群或投稿