摘要:

1.深度评估和场景稀疏是两个非常重要的计算机场景理解任务。

2.我们用一个级联的cnn来解决了这两个问题(多任务学习问题)。

3.不同于之前的任务,直接优化输入数据,我们的方法提出了一个任务导向预测和提取网络(PAD-Net)

4.先预测一系列的中间辅助任务,然后这些预测结果通过我们的提取模块作为一个多模态输入给我们最后的网络。

5.在级联学习当中,这个中间任务不仅仅作为一个监督去学写更加鲁棒的表现,而且还提供一个多模态的信息给最后的任务

6.实验在两个数据集上进行,分别是NYUD-v2和CityScapes

introduction:

1.多任务学习典型的深度多任务学习方法主要关注最终预测水平,通过采用交叉模式交互来相互完善任务[18,51]

2.或设计更有效的联合优化目标函数[40,21]。

3.然而,同时使用不同的损失函数来学习不同的任务会使网络优化变得复杂,并且通常不容易为所有任务获得良好的泛化能力,因此与仅使用优化相比,这会对某些任务带来更差的性能。 UberNet [22]发现的一项任务。

4.多模态输入数据更有利于提高预测准确度,例如采用深度信息的RGB-D就比仅使用RGB信息的表现要好。

5.采用多模态和语义图作为输入,能够让网络学到更多相关联且共享的信息,如轮廓和表面法线(什么叫表面法线)。

6.所以设计一个怎样的中间辅助任务,能够更好的帮助网络交流和共享不同信息。

7.而其他深度多任务学习模型,如十字绣网[38],Sluice Net [44]和深度关系网[36],只假设单模态数据。

我们提出来的方法:

1.辅助任务的范围从低级到高级,包括两个连续回归任务(单眼深度预测和表面法线估计)和两个离散分类任务(场景解析和轮廓检测)。 然后将所产生的多个预测(即深度图,表面法线,语义图和对象轮廓)用作最后两个主要任务的下一个子深度网络的多模态输入。

2通过涉及中间多任务预测模块,所提出的PAD-Net不仅增加了对更有效地优化前端网络的深度监督,而且还能够结合来自相关域的更多知识。 由于预测的多模态结果是高度互补的,我们进一步提出了多模态蒸馏策略以更好地使用这些数据。

3.当完成整个PAD-Net的优化时,推断仅基于RGB输入。

贡献:

总而言之,本文的贡献有三个方面:

(i)首先,我们提出了一种新的多任务指导预测和蒸馏网络(PAD-Net)结构,用于同步深度估计和场景解析。 它产生一组中间辅助任务,为学习目标任务提供丰富的多模态数据。 虽然PAD-Net仅将RGB数据作为输入,但它能够结合多模态信息来改进最终任务。(ii)其次,我们设计并研究了三种不同的多模态蒸馏模块,用于深度多模态数据融合, 我们相信它也可以应用于其他场景,如多尺度深度特征融合。

(iii)第三,对具有挑战性的NYUD-v2和Cityscapes数据集的大量实验证明了所提方法的有效性。我们的方法在深度估计和场景解析任务上实现了NYUD-v2的最新结果,并在Cityscapes场景解析任务中获得了非常有竞争力的性能。更重要的是,所提议的方法明显优于联合优化这两项任务的最先进技术。

相关工作:Deep multi-task learning for vision.

深度多任务学习[38,44]已被广泛应用于各种计算机视觉问题,如联合推理场景几何和语义[21],人脸属性估计[14],同时轮廓检测和语义分割[12]。 和Urtasun等人。 [57]提出了一种联合学习三个任务的方法,即对象检测,场景分类和语义分割。 Hariharan等人。 [15]提出基于R-CNN框架同时学习对象检测和语义分割。 然而,他们都没有考虑在CNN的中间层引入多任务预测和多模态蒸馏步骤来改进目标任务。

方法:

1.首先输入RGB图像,通过解码器,通过最后一层得到feature map。

2.然后将前面所有层的feartuemap用卷积下采样和双线性插值得到分别率和最后一层卷积层相等的分辨率

3.然后将这些feature map concate得到一个组合的feature map 最后再进行上采样

4.同时还使用了孔洞卷积的策略来扩大感受野

多任务的方法:

我们获得具有N个通道的特征用于主要深度估计和场景解析任务,而具有N / 2个通道的特征用于其他两个辅助任务。 feature map分辨率对于四个任务是相同的,并且是前端网络feature map的2倍。 然后执行单独的卷积操作以产生相应的四个任务的得分图。 通过双线性插值将得分图设置为输入RGB图像分辨率的1/4。通过重新缩放的ground truth,添加了四个不同的损失函数用于学习四个中间任务

(虽然使用了四种不同的监督,但我们不需要额外的注释工作,因为表面法线和轮廓可以分别从深度和语义标签直接推断出来。)

Deep Multi-Modal Distillation:

如图所示:

1.模块A直接融合concate

2.模块B,Fik表示第i个训练样本的第k个任务,Fi,o,k表示第i个训练样本,第k个final 任务且经过融合后的输出,将Fik所对应的final任务(因为有两个final任务与auxiliary 任务有两个相同)加上其他任务(这个其他任务被其他任务的卷积何卷积过且被final任务的卷积核卷积过)

公式如下:

3.模块C使用的是注意力机制:

(1)用卷积与final任务的特征图相卷积,经过sigmoid函数得到权重参数

(2)然后再相加

Decoder Network Structure:

对于特定于任务的解码器,我们使用两个连续的反卷积层来对经过提取的特征映射进行上采样,以进行像素级预测。 由于蒸馏的特征图的分辨率是输入RGB图像的1/4,因此每个反卷积层尺度进行2倍的上采样上升,因此将输出通道的数量减少一半。 最后,我们使用卷积运算为每个最终任务生成得分图。

PAD-Net: Multi-Tasks Guided Prediction-and-Distillation Network for Simultaneous Depth Estimation an相关推荐

  1. Zero-Shot Learning学习笔记 -- CVPR_2022_MSDN: Mutually Semantic Distillation Network for Zero-Shot Learn

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 动机与主要知识点介绍 网络结构 Attribute→Visual Attention Sub-net Visual→Attr ...

  2. IDN-Fast and Accurate Single Image Super-Resolution via Information Distillation Network信息蒸馏网络

    Fast and Accurate Single Image Super-Resolution via Information Distillation Network CVPR2018 github ...

  3. 论文阅读:HAD-Net: A Hierarchical Adversarial Knowledge Distillation Network for Improved Enhanced Tumour

    论文获取地址:https://arxiv.org/pdf/2103.16617.pdf 代码开放地址:https://github.com/SaverioVad/HAD_Net 论文摘要: 在许多临床 ...

  4. 【论文笔记2_超分辨】(IDN)Fast and Accurate Single Image Super-Resolution via Information Distillation Network

    文章目录 Abstract 1. Introduction 2. Network Structure 2.1 特征提取块(FBlock) 2.2 信息蒸馏块(DBlocks) 2.2.1 增强单元(E ...

  5. CVPR 2018 paper list(论文列表)

    原文链接:http://cvpr2018.thecvf.com/program/main_conference 52 Embodied Question Answering Abhishek Das ...

  6. 密集预测任务的多任务学习(Multi-Task Learning)研究综述 - 网络结构篇(上)

    [ TPAMI 2021 ] Multi-Task Learning for Dense Prediction Tasks: A Survey [ The authors ] • Simon Vand ...

  7. CVPR 2018 paper ---object detection

    转载:https://blog.csdn.net/qq_34848537/article/details/82968217 参考链接 CVPR 2018 论文解读集锦(9月27日更新) CVPR 20 ...

  8. CVPR 2018 paper

    CVPR 2018 参考链接 CVPR 2018 论文解读集锦(9月27日更新) CVPR 2018 open access Paperlist Embodied Question Answering ...

  9. 【论文合集】RGBD Semantic Segmentation

    来源:GitHub - Yangzhangcst/RGBD-semantic-segmentation: A paper list of RGBD semantic segmentation (pro ...

最新文章

  1. Android 计时器 Chronometer
  2. CF650C Table Compression
  3. 2020年推荐系统工程师炼丹手册RecSys版
  4. 手把手带你爬虫 | 爬取语录大全
  5. MapReduce 详解
  6. tensorflow--embedding_lookup 和 embedding_lookup_sparse
  7. [配置中心] --- consul
  8. Redmine for windows 一键安装
  9. 【JavaScript】重温Javascript继承机制
  10. python列表转集合_Python数据类型 列表、元组、集合、字典的区别和相互转换
  11. 9.数据结构 --- 查找
  12. licens 问题 Error (292028): Specified license is not valid for this machine
  13. 解决Maven:Cannot resolve com.oracle.ojdbc:ojdbc6:11.2.0.1.0报红找不到问题,解决方案亲测有效详细图文教程 问题描述(ojdbc6)
  14. 偷窥JCache API(JSR 107)
  15. x86 android 显卡 tablet2,随心而变 ThinkPad Tablet 2评测
  16. 根据浏览器获取经纬度
  17. java创建文件的路径_JAVA如何指定路径创建文件?
  18. sentinel实现秒杀活动
  19. 结构建模设计——Solidworks软件之特征成型中拉伸凸台基体与设计树应用实战总结
  20. 【Scikit-Learn 中文文档】处理文本数据 - scikit-learn 教程 | ApacheCN

热门文章

  1. OpenGL基础33:帧缓冲(上)之离屏渲染
  2. 2018年全国多校算法寒假训练营练习比赛(第一场)G. 圆圈
  3. bzoj 1610: [Usaco2008 Feb]Line连线游戏
  4. 利用拉普拉斯滤波器提取图像边缘,实现图像锐化
  5. [Python] 绘制Python代码的函数调用关系:graphviz+pycallgraph
  6. [debug] 开源项目的本地使用:使用pip安装的函数库不能被anaconda和pycharm使用+visdom使用 +路径问题
  7. Linkerd2安装和使用
  8. OPNET网络仿真分析-1.5、OPNET中英文对比
  9. jquery系列教程3-DOM操作全解
  10. JDBC工具类,基于C3P0的数据库连接池,提供获取连接池、获取连接对象、释放资源和封装事务操作的方法...