参考代码:None

介绍

SrroundDepth算法中对使用self-attention做多视图特征聚合,这样一个是计算开销和显存占用比较大,二个每个单独视图需要从众多视图中寻找有用信息会减慢网络收敛速度。对此依据多视图系统中成像特点,这篇文章将当前视图只与左右俩视图(分别对应左右视图的与当前视图相关的一部分)做attention操作,从而极大减少计算和显存开销。节省了这些开销之外就可以尝试增加分辨率、增加多桢输入(从结果上看涨点不明显)这些trick来提升自监督深度估计的性能了。在下图中正好在性能和计算量维度对比文章方法与FSM和SurroundDepth方法:

可以看到这个self-attention操作还是有很大改进空间的,这篇文章中是使用与当前视图相关的左右视图参与到attention计算过程,那么可以进一步将这样的操作替换为deformable attention的操作这样还可以更进一步节省计算量和提升性能表现,这就跟deformable-DETR效果类似。但是需要注意相机曝光同步时刻是否匹配,若是不匹配就需要做额外操作修改来对齐了。

方法设计

其实文章的方法与SurroundDepth方法大体一致,区别在于对self-attention操作做了对应修改,替换成了下图中所示的efficient guided attention操作,如下图:

在上图中以当前视图构建query,之后将周围视图(可对应当前时刻或者其它时刻特征)作为key和val,通过寻找当前视图与周围视图的关联优化当前视图表达,而且可通过先验选择作为视图 1 3 \frac{1}{3} 31​的区域作为有效区域,从而可以极大减少计算和显存开销。这样带来的好处便是可以增大参与计算的特征图分辨率从而提升深度估计性能,下表展示了特征图分辨率对于深度估计性能的影响:

在减少计算和显存开销的情况下还可以融合多时序的特征参与到当前时刻深度估计上来,则不同时序特征的引入对深度估计性能的影响见下表:

可以看到增加时序特征作为输入只有在这篇文章的方法上有些许涨点,在之前的surrounddepth上性能还出现了下降,这应该是self-attention无法从众多信息中很好学到对应有用信息,只是单纯增加了搜索空间。

实验结果

nuScenes上性能比较:

DDAD上性能比较:

EGA-Depth:Efficient Guided Attention for Self-Supervised Multi-Camera Depth Estimation相关推荐

  1. 【图像分割】MGA:Motion Guided Attention for Video Salient Object Detection

    文章: Motion Guided Attention for Video Salient Object Detection 代码:https://github.com/lhaof/Motion-Gu ...

  2. Occluded Pedestrian Detection Through Guided Attention in CNNs 论文总结

    概述  行人检测在过去几年中取得了显著进展.然而行人检测的遮挡问题仍然是研究的重点和难点,因为行人外表因遮挡模式的不同而有很大差异.在本文中,提出一种基于Faster-rcnn 方法的一种遮挡行人检测 ...

  3. 注意力机制——ECANet(Efficient Channel Attention Network)

    ECANet(Efficient Channel Attention Network)是一种新颖的注意力机制,用于深度神经网络中的特征提取,它可以有效地减少模型参数量和计算量,提高模型的性能. ECA ...

  4. 论文阅读——ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

    ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks 改进版通道注意力 from CVPR2020 期 ...

  5. Efficient Long-Range Attention Network for Image Super-resolution

    Efficient Long-Range Attention Network for Image Super-resolution Date: 2022/04/09 File Type: paper ...

  6. LLMs之Guanaco:《QLoRA:Efficient Finetuning of Quantized LLMs》翻译与解读

    LLMs之Guanaco:<QLoRA:Efficient Finetuning of Quantized LLMs>翻译与解读 导读:本文介绍了QLORA,一种高效的微调方法.利用QLo ...

  7. Motion Guided Attention for Video Salient Object Detection论文详读

    abstract 视频显著目标检测的主要目的是检测出视频中视觉上最突出.最独特的目标,现有的方法没有获取和使用视频中的运动线索,或忽略了光流图像中的空间上下文. 本文的方法使用两个子网络分别实现两个子 ...

  8. 为节约而生:从标准Attention到稀疏Attention

    作者丨苏剑林 单位丨追一科技 研究方向丨NLP,神经网络 个人主页丨kexue.fm 如今 NLP 领域,Attention 大行其道,当然也不止 NLP,在 CV 领域 Attention 也占有一 ...

  9. 论文阅读:Semantic Aware Attention Based Deep Object Co-segmentation(ACCV2018)

    协同分割论文:Semantic Aware Attention Based Deep Object Co-segmentation(ACCV2018) 论文原文     code 目录 1.简介 2. ...

  10. DSConv:Efficient convolution operator

    DSConv:Efficient convolution operator Abstract 分布移位卷积,可以容易的替换为标准神经网络体系结构并且实现较低的存储器使用和较高的计算速度.DSConv将 ...

最新文章

  1. 签名SOAP消息–生成封装的XML签名
  2. 盘点丨2019十大边缘计算项目
  3. 我的世界服务器的文件名叫什么,我的世界 外国服务器叫什么名字 | 手游网游页游攻略大全...
  4. HTML 表格的基本布局
  5. oracle数据库从AIX环境expdp迁移到linux环境(sec_case_sensitive_logon=true导致连接报错ORA-01017)
  6. 分布式光伏补贴_光伏业再出新政:户用光伏首次单独管理,分布式、地面电站需竞价获取补贴...
  7. 1万字说清楚Receiver Operating curve(ROC) 受试者操作特征曲线
  8. UI设计和平面设计有什么区别哪个前景更好
  9. ROBOGUIDE软件:FANUC机器人弧焊焊接起始点接触寻位虚拟仿真
  10. python编程中的不等于符号_python不等于符号怎么写
  11. 智慧养老之智慧养老解决方案-新导智能
  12. 崇实大学 计算机专业,2020年崇实大学Times世界排名
  13. greenplum创建外部表笔记-readable篇
  14. 免费的艺术二维码生成器
  15. ios快捷指令:修改图片尺寸、拼接长图
  16. linux 7 开启远程桌面,CentOS 7 开启VNC远程桌面
  17. MacBook Pro 触控板目前没有触感反馈怎么办?
  18. 怎么上传ftp服务器文件,ftp服务器如何上传本地文件
  19. C51单片机--按键及LED显示
  20. 2.修道士和野人问题

热门文章

  1. 使用 Cocos Creator 打造自己的爆款小游戏《方块弹珠》!
  2. 中国房地产市场和股票市场体量,哪个大
  3. 计算机网络传播工作方式,计算机网络传播发展现状分析
  4. (转)Java中的String为什么是不可变的? -- String源码分析
  5. Spring Boot 系列学习教程
  6. 公司监事的法律责任有哪些
  7. 微信小程序开发整理-mp4
  8. Effie:优秀影评人的进阶指南
  9. 【LLM】大模型幻觉问题的原因和缓解方法
  10. ubuntu 服务器防火墙设置 常用UFW命令