点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

本文由知乎作者青青韶华授权转载,不得擅自二次转载。

原文链接:https://zhuanlan.zhihu.com/p/120914353

论文题目:Fast Deep Stereo with 2D Convolutional Processing of Cost Signatures

论文地址:https://arxiv.org/abs/1903.04939v1

开源代码:https://github.com/ayanc/fdscs

本文介绍Amazon和华盛顿大学在WACV 2020上的论文《Fast Deep Stereo with 2D Convolutional Processing of Cost Signatures》,他们在这篇工作中提出了一个实时的深度立体匹配网络,在GPU上可以达到48FPS。

首先来看和其他SOTA实时网络的对比,借此机会可以简单回顾一下基于深度模型的实时立体匹配的进展。

从右往左看,[19]是MADNet,CVPR 2019的Oral,第一个自适应的实时立体匹配网络。所提方法和MADNet的速度差不多,不过准确率要更高,毕竟所提方法是基于全监督的,而MADNet在真实数据上是无监督的,性能会有所降低。

[10] 是2017年发表在MLSP上的一篇文章,它采用传统的匹配成本和传统的成本聚合流程,利用一个可学习的深度网络来控制不同区域的成本聚合参数。由于利用了传统匹配方法的快速性。虽然它的速度可达29FPS,不过精度却比较低。

[4]是Uber在ICCV 2019新提出的DeepPruner,借鉴传统的PatchMatch方法,将其设计为可导的RNN形式,来避免cost volume中大量重复的计算,速度可达62ms,大约16FPS。准确率较高,不过速度不是很快。

再往左是一些经典的深度立体匹配模型,DispNetC(CVPR 16),iRetNet(CVPR 18),SegStereo(ECCV 18),GA-Net(CVPR 19),这里不再一一介绍。

一、Motivation

当前基于深度模型的立体匹配网络虽然准确率很高,但是速度非常慢,这主要受限于计算代价过高的匹配代价体(cost volume)以及用来进行成本聚合的含参量较大的3D卷积。如果只采用2D卷积进行代价聚合,速度将会大大提升。

受之前工作的启发,在给定少量的稀疏深度度量和彩色参考图像后,就能够重构出准确率较高的深度图(KITTI其实就只给定了稀疏的视差标签,但是由此训练的模型可以预测准确的密集视差图)。这表明微弱的,带噪声的深度信息已经是足够的。

二、Method

上图是论文提出方法的框架图。主要分为三部分:

1. 利用传统算法快速得到初始的匹配代价;

2. 利用卷积层将其映射为成本签名(cost signature map);

3. 利用类似U-Net的2D卷积计算的编码-解码结构得到最终的视差图。

其中第1步是固定不变的,而后两步构成了可学习的端到端网络。

具体来说,第1步中首先将图像下采样到原图的一半分辨率。将图像从RGB图像转到YUV空间。对于亮度Y通道,采用基于汉明距离的传统匹配成本计算方法。对于颜色信息的U和V通道,采用两个通道的绝对值构成cost volume。

第2步中提出的成本签名可以看做是一种低维度的cost volume,因此第2步的目的就是使用1*1卷积进行cost volume的逐步降维。

第3步中利用基于2D卷积的U-Net结构,相比于之前的3D卷积,速度更快,参数量更少。并且使用彩色参考图像作为引导,最后将得到的1/2分辨率视差图经过上采样得到全分辨率的视差图。

三、Experiments

作者主要在KITTI 2012和2015数据集上进行实验,对于一个实时的网络,所提出的方法做到了在相同速度条件下的精度优势,和在相同精度下的速度优势。

四、Conclusion

在立体匹配领域,最近的框架没有很大的不同,但是一种趋势是从传统方法上找灵感,用的比较多的就是将传统方法以深度网络的形式来实现,并嵌入到端到端的CNN中。本文也属于这类方法,不过从端到端的角度看,第1步仍然是人为的前处理过程,整体上还不是端到端的,这可能是一个可以改进的地方。

上述内容,如有侵犯版权,请联系作者,会自行删文。

推荐阅读:

吐血整理|3D视觉系统化学习路线

那些精贵的3D视觉系统学习资源总结(附书籍、网址与视频教程)

超全的3D视觉数据集汇总

大盘点|6D姿态估计算法汇总(上)

大盘点|6D姿态估计算法汇总(下)

机器人抓取汇总|涉及目标检测、分割、姿态识别、抓取点检测、路径规划

汇总|3D点云目标检测算法

汇总|3D人脸重建算法

那些年,我们一起刷过的计算机视觉比赛

总结|深度学习实现缺陷检测

深度学习在3-D环境重建中的应用

汇总|医学图像分析领域论文

大盘点|OCR算法汇总

重磅!3DCVer-知识星球和学术交流群已成立

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导,770+的星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

欢迎加入我们公众号读者群一起和同行交流,目前有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加群或投稿

WACV 2020 | 基于2D卷积处理成本签名的快速立体匹配相关推荐

  1. 论文盘点:基于图卷积GNN的多目标跟踪算法解析

    ©PaperWeekly 原创 · 作者|黄飘 学校|华中科技大学硕士 研究方向|多目标跟踪 随着这两年 GNN 的发展,其对于关系的建模特性也被引入了多目标跟踪领域,这次我通过对这两年基于 GNN ...

  2. MICCAI 2020 | 基于3D监督预训练的全身病灶检测SOTA(预训练代码和模型已公开)...

    关注公众号,发现CV技术之美 ▊ 研究背景介绍 由于深度学习任务往往依赖于大量的标注数据,医疗图像的样本标注又会涉及到较多的专业知识,标注人员需要对病灶的大小.形状.边缘等信息进行准确的判断,甚至需要 ...

  3. Lifting Transformer: 基于跨步卷积Transformer的高效三维人体姿态估计

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 论文:Lifting Transformer for 3D Human Pose Estimation ...

  4. 基于深度卷积神经网络的目标检测研究综述

    基于深度卷积神经网络的目标检测研究综述 人工智能技术与咨询 来自<光学精密工程> ,作者范丽丽等 摘要:作为计算机视觉中的基本视觉识别问题,目标检测在过去的几十年中得到了广泛地研究.目标检 ...

  5. 深度学习-Resolution-robust Large Mask Inpainting with Fourier Convolutions基于傅里叶卷积的对分辨率鲁棒的掩模修复

    Resolution-robust Large Mask Inpainting with Fourier Convolutions基于傅里叶卷积的对分辨率鲁棒的掩模修复 0.摘要 1.概述 2.方法 ...

  6. Chemistry.AI | 基于图卷积神经网络(GCN)预测分子性质

    GCN: Graph Convolutional Network(图卷积网络) 环境准备 Python版本:Python 3.6.8 PyTorch版本:PyTorch1.1.0 RDKit版本:RD ...

  7. CVPR 2019 | 旷视研究院提出ML-GCN:基于图卷积网络的多标签图像识别模型

    全球计算机视觉三大顶会之一 CVPR 2019 (IEEE Conference on Computer Visionand Pattern Recognition)将于 6 月 16-20在美国洛杉 ...

  8. 经典论文复现 | 基于深度卷积网络的图像超分辨率算法

    过去几年发表于各大 AI 顶会论文提出的 400 多种算法中,公开算法代码的仅占 6%,其中三分之一的论文作者分享了测试数据,约 54% 的分享包含"伪代码".这是今年 AAAI ...

  9. 论文浅尝 - SIAM ICDM 2020 | 基于图时空网络的知识引导的诊断预测

    论文笔记整理:吴锐,东南大学硕士. 来源:SIAM ICDM 2020 论文下载地址: https://epubs.siam.org/doi/abs/10.1137/1.9781611976236.3 ...

最新文章

  1. Hinton新作!越大的自监督模型,半监督学习需要的标签越少
  2. pytorch手写数字识别验证四流网络
  3. [linux]centos7下解决yum install mysql-server没有可用包
  4. 基于Boost::beast模块的同步WebSocket客户端
  5. 微信支付 签名算法 sign node实现
  6. jedis连接mysql_使用Jedis操作Redis数据库
  7. 【转】写给想学习自动化测试的新人
  8. 链表的翻转(java)
  9. 【BZOJ4016】最短路径树问题,最短路+点分治
  10. Web安全通讯之Token与JWT
  11. RPM 打包技术与典型 SPEC 文件分析
  12. Python_随机生成11位手机号
  13. 自动驾驶路径规划算法学习-RRT算法及matlab实现
  14. zabbix3.2短信告警脚本
  15. MCP3421高精度ADC转换器
  16. couchbase 报 The Content of this Observable is already released. Subscribe earlier or tune the Couch
  17. office2010无法卸载问题
  18. oracle的gc告警,防患未然:Oracle gc等待事件的发现、处理与预防
  19. keep sb updated_keep you update 和keep you updated哪个正确
  20. Unity相机旋转和人物朝向

热门文章

  1. seci-log 1.11 发布 增加了ftpserver,远程ftp,sftp采集简化配置等功能
  2. bash shell命令(2)
  3. linux下如何查看系统和内核版本
  4. phonegap 2.7 ios配置安装详细教程(2.9通用)
  5. 对“单子模式”的补充
  6. 面试八股文最新版出炉!一周肝了15个新篇章……
  7. JDK ThreadPoolExecutor核心原理与实践
  8. 2021 年大厂面试高频架构题汇总(附答案详解)
  9. 搞不懂为啥都要去字节跳动,进阿里不香吗?
  10. 信息流推荐的用户增长机制