目录

基本情况

摘要

I. 引言

II. 相关工作

III. 方法

A. 双分支Backbone

B. 几何卷积层

C. 拓展和加速的CSPN++

D. 训练损失

IV. 实验结果

V. 总结

参考


基本情况

  • 出处:Hu M, Wang S, Li B, et al. Towards Precise and Efficient Image Guided Depth Completion[J]. arXiv e-prints, 2021: arXiv: 2103.00783.
  • 单位: 浙江大学,College of Information Science and Electronic Engineering, Zhejiang University, Hangzhou
  • 开源代码:https://github.com/JUGGHM/PENet_ICRA2021
  • 论文地址:https://arxiv.org/pdf/2103.00783.pdf
  • arxiv: https://arxiv.org/abs/2103.00783
  • Benckmark: The KITTI Vision Benchmark Suite

摘要

图像引导深度补全,是从一张稀疏深度图高质量图像生成稠密深度图的任务。在这个任务中,如何融合彩色和深度信息,扮演着非常重要的角色。本论文提出一个两分支架构,包括:一个颜色主导分支,和一个深度主导分支,来充分地利用和融合这两种模态的数据。更具体地来讲,

  • 一个分支输入颜色信息和一个稀疏深度图来预测一个稠密深度图
  • 另外一个分支输入稀疏深度图先前预测的深度图,输出一个较好的稠密深度图

从两个分支预测的深度图是互补的,因此它们是自适应融合。另外,我们也

  • 提出一个简单几何卷积层去编码3D几何线索。

这个几何编码框架进行多个阶段不同形态的融合,获得较好的深度补全结果。我们进一步实现了一个扩展和加速 CSPN++ ( a dilated and accelerated CSPN++ )来精细融合深度图。本文提出的全模型在当时KITTI深度补全竞赛中排名第一。

I. 引言

图像引导深度完成旨在在高分辨率彩色图像的指导下从稀疏的深度图预测密集深度图。 由于其在各种计算机视觉应用中的重要性,如自动驾驶,3D重建和增强现实,该任务一直吸引着相当大的研究兴趣。 通常通过投影由户外环境中的激光雷达等测距传感器收集的3D点云来获得稀疏深度图。 然而,即使使用高端激光雷达,投影深度图仍然非常稀疏,并且在物体边界周围也很嘈杂。 这些缺陷使得深度完成成为一个具有挑战性的问题。 为了解决这个问题,已经开发了各种各样的方法。 最近的方法主要基于深度卷积神经网络。 考虑到颜色和深度是两种不同的模式,大多数以前的方法采用双分支网络体系结构来融合这两种模式。 例如,Jaritz等人[1]和Hua等人 [2]使用两个编码器分别从每种模式中提取特征,然后将它们保险丝到一个解码器中。唐等[3]构造两个编码器-解码器网络提取颜色和深度特征,并采用解码器-编码器融合方案。

在这些网络中,每个分支仅输入一种模式,因此仅考虑后期融合。 在一些作品中还构建了两个分支体系结构,例如FusionNet[4]和Deeplidar[5],以执行早期和晚期融合。

  • FusionNet[4]由两个分支组成,分别提取本地和全局信息。
  • Deeplidar[5]是由彩色路径和表面正常路径组成的网络。 在这些网络中,每个分支采用两种模态作为输入,并且在多个阶段执行多模态融合。

通过这种方式,可以实现更好的融合,这进一步导致更好的深度完成性能。 然而,这两种方法[4],[5]需要额外的数据集,例如城市景观[6]或合成数据[5],以预训练其网络。受上述方法的启发,我们的工作构建了一个双分支网络,该网络由颜色主导(CD)分支深度主导(DD)分支组成,作为主干。 与FusionNet[4]和Deeplidar[5]不同,我们为不同的目的设计分支。 更具体地,

  • CD分支旨在提取用于深度预测的颜色主导信息。 它输入彩色图像和稀疏深度图并生成密集深度图。 由于该分支是颜色主导的,因此预测的深度图在对象边界周围相对可靠,但可能对颜色或纹理的变化过于敏感。
  • DD分支将稀疏深度图和CD深度预测作为输入,以生成密集深度图,该深度图总体上是可靠的,但受到稀疏输入中存在的物体边界附近的严重噪声的影响。

这意味着从两个分支预测的深度图是相互补充的。 因此,我们用学习的置信权重自适应地融合它们。 该主干能够充分利用和融合颜色和深度模式。 它也可以从头开始进行培训,而无需使用额外的数据集。

此外,我们还提出了一个简单的几何卷积层来编码3D几何线索。 它只是通过将3D位置图连接到图层的输入来增强卷积图层。 在这种几何编码方案的帮助下,我们的主干实现了不错的性能。 考虑到预测后可能不会保留来自稀疏输入的准确深度值,我们还集成了基于CSPN++[7]的模块,以细化主干预测的深度图。 我们设计了CSPN++的扩展和加速实现,使精炼更加有效和高效。

本论文的主要贡献可以总结为:

  • (1)我们构造了一个两分支架构,能够通过彩色和深度作为引导信息来进行稠密深度预测。这个架构能够开发和融合彩色和深度信息;
  • (2)我们提出一个几何卷积层来简化3D几何线。这个几何编码框架性能优于最高排名方法;
  • (3)我们设计网络来加速深度精细技术CSPN++,使其变得更加高效;
  • (4)我们提出的模型在提交时(1 Nov. 2020 08:04),在KITTI数据集排名第一;

II. 相关工作

A. Depth Completion
B. Geometric Encoding
C. Spatial Propagation Networks

III. 方法

A. 双分支Backbone

双分支主干,旨在彻底利用来自各自分支的颜色主导和深度主导信息,并使两种模式的融合有效。 为此,我们在两个分支中构建类似的编码器-解码器网络以执行颜色主导深度预测和深度主导深度预测。 颜色占主导地位的分支最初旨在从彩色图像中预测密集深度图。 出于有效性的目的,对齐的稀疏深度图也是辅助深度预测的输入。 在这个分支中,我们构建了一个具有对称跳连接的编码器-解码器网络。 编码器包含一个卷积层和十个基本残差块,即Resblocks[26]。 解码器有五个反卷积层和一个卷积层。 所有卷积层中的每一个之后都是BN层和ReLU激活。 虽然彩色图像和稀疏深度图都是输入,但该分支提取用于深度预测的颜色主导特征,以便可以通过利用彩色图像中的结构信息来学习物体边界周围的深度。
深度占主导地位的分支最初旨在通过上采样稀疏的深度图来预测密集的深度图。 在该分支中,构建了类似的编码器-解码器网络。 我们还采用解码器-编码器融合策略[3]将颜色主导功能融合到此分支中。 具体地,Color-Dominant分支的解码器功能与DepthDominant分支中的相应编码器功能相关联。 此外,从CD分支获得的深度预测结果也是该分支的输入。 通过这种方式,颜色和深度模式的特征在多个阶段融合。
DeepFusion.  由于预测了两个密集深度图,我们通过在FusionNet[4]中遵循相同的策略来融合它们。最后我们根据置信度,融合了两个分支()的深度。这里(u,v)是像素的位置。

B. 几何卷积层

正如[20]所指出的,3D几何线索对于深度完成非常重要。 在这项工作中,我们提出了一种几何卷积层来编码3D几何信息。 如图2所示,它通过将3D位置图连接到图层的输入来简单地增强传统的卷积图层。位置图(X,Y,Z)来自于原始的稀疏深度图。这里(u,v)是像素坐标,是相机的内参。

C. 拓展和加速的CSPN++

D. 训练损失

我们采用L2损失进行训练。这里,是预测的深度图,是用于监督的地面真相,是指示符,并且是基于元素的乘法。 由于地面真值包含无效像素,我们只考虑具有有效深度值的像素。

在早期的训练时代,监督也被置于中间深度预测结果中。这里 λcd 和 λdd是两个经验超参数。

IV. 实验结果

V. 总结

在本文中,我们提出了一种图像引导深度完成的方法。 通过回顾之前工作中开发的双分支体系结构,我们提出了一种新的双分支体系结构,可以分别利用颜色和深度主导信息。 设计的主干与提出的几何卷积层一起可以充分利用和融合多模态信息。

此外,我们集成了一个加速的DA-CSPN++模块,用于进一步的深度改进。 经过Kitti在线排行榜的测试,整个模型精确而高效。

参考

https://blog.csdn.net/CSS360/article/details/117279410

论文笔记_S2D.74_2021_ICRA_PENet:面向精确和高效的图像引导的深度补全相关推荐

  1. 【深度补全算法】基于RGBD相机的深度补全算法(非Lidar)论文与GitHub代码总结

    目录 前言 一.经典的深度补全算法(2018-2019) 1.Deep Depth Completion of a Single RGB-D Image 2.Indoor Depth Completi ...

  2. 深度补全(Sparsity Invariant CNNs)-论文阅读-翻译

    (由于是直接从word上复制的,可能存在格式问题) Sparsity Invariant CNNs翻译 Abstract 本文考虑了基于稀疏输入的卷积神经网络,并将其应用于稀疏激光扫描数据的深度上采样 ...

  3. 论文浅尝 - ACL2020 | 通过集成知识转换进行多语言知识图谱补全

    笔记整理 | 谭亦鸣,东南大学博士生 概述 预测图谱中缺失的事实(fact)是知识图谱构建与推理中的一个重要任务,近年来也被许多KG embedding研究的关注对象.虽然目前的KG embeddin ...

  4. CIKM 2022最佳论文:融合图注意力机制与预训练语言模型的常识库补全

    ©作者 | 巨锦浩 单位 | 复旦大学硕士生 来源 | 知识工场 研究背景 常识在各种语料库中很少被明确表达,但对于机器理解自然语言非常有用.与传统的知识库(KG)不同,常识库(CKG)中的节点通常由 ...

  5. 论文笔记_S2D.77_2013_TOR_使用RGBD相机的3D建图(RGBD SLAM V2)

    目录 基本情况 摘要 介绍 系统流程 特征提取 运动估计 EMM:Environment Measurement Model 回环检测 图优化 建图OctoMap 参考 基本情况 出处:Endres ...

  6. 论文笔记--基于 FCM 聚类的跨模态人物图像标注方法-2015

    期刊论文-基于 FCM 聚类的跨模态人物图像标注方法-2015-微型电脑应用-赵昀,张翌翀 文末附人脸标注相关论文下载地址 文章目录 摘要 技术 人脸检测与特征表示(与2012年吴伟硕士论文<跨 ...

  7. 【图像融合-论文笔记】Fusion of multi-exposure images多曝光图像的融合

    Fusion of multi-exposure images 多曝光图像的融合 作者:Ardeshir Goshtasby 期刊:图像和视觉计算(2005) 摘要 介绍一种将静止摄像机拍摄的静态场景 ...

  8. 论文笔记(五)FWENet:基于SAR图像的洪水水体提取深度卷积神经网络(CVPR)

    FWENet: a deep convolutional neural network for flood water body extraction based on SAR images 作者:J ...

  9. 论文笔记-Depth Estimation via Affinity Learned with Convolutional Spatial Propagation Network

    论文信息 标题: Depth Estimation via Affinity Learned with Convolutional Spatial Propagation Network 作者:Xin ...

  10. 论文简述 | DOT:面向视觉SLAM的动态目标跟踪

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 1 摘要 在本文中,我们提出了动态目标跟踪(DOT),一个添加到现有SLAM系统的前端,可以显著提高它 ...

最新文章

  1. cogs 539. 牛棚的灯
  2. python中魔法方法__str__与__repr__的区别
  3. springboot添加swagger2组件
  4. PaperWeekly给您拜年啦!
  5. 用.NetCore 编译国产老牌PHP论坛DiscuzX ,世界上最好的语言从此属于.Net 的一员
  6. 高性能网站建设指南——网站优化的14条建议
  7. 安卓学习笔记06:Activity生命周期与启动模式
  8. shell 脚本编程总结
  9. opencv读写图片,分离通道等操作
  10. Android http proxy server 设置
  11. xshell5字体大小调整
  12. 渗透测试与漏洞扫描详解
  13. css(五)项目实战,ps切图
  14. mysql编程界面_MySQL图形界面客户端
  15. linux 计算百分比,计算百分比的分析函数
  16. php爬取房源,用python爬取二手房交易信息并进行分析
  17. 方差、协方差、协方差矩阵以及互相关矩阵
  18. windows搭建Git服务器之Bonobo Git Server
  19. faker和劫的图片_faker亲手画的劫被曝光,看到他的画,众人心里久久不能平息...
  20. 微信转账服务器有问题,微信转账时出现这个界面千万当心,事关你的钱包,这15分钟很关键...

热门文章

  1. 西电计算机学硕毕业要求,关于计算机科学与技术学院2020年12月研究生学位申请工作的通知...
  2. Angular 8 发布
  3. phpcms站点域名配置https无法提交如何处理
  4. 关于lua字节码在32位和64位系统上不兼容的问题
  5. 5. 学习集合与常用类
  6. bzoj1010 [HNOI2008]玩具装箱toy
  7. javascript循环事件只响应最后一次的问题处理
  8. Assembly初识
  9. C# winform 弹出输入框
  10. vsCode配置通过Github同步(Settings Sync)