EGA-Depth：Efficient Guided Attention for Self-Supervised Multi-Camera Depth Estimation

参考代码：None

介绍

SrroundDepth算法中对使用self-attention做多视图特征聚合，这样一个是计算开销和显存占用比较大，二个每个单独视图需要从众多视图中寻找有用信息会减慢网络收敛速度。对此依据多视图系统中成像特点，这篇文章将当前视图只与左右俩视图（分别对应左右视图的与当前视图相关的一部分）做attention操作，从而极大减少计算和显存开销。节省了这些开销之外就可以尝试增加分辨率、增加多桢输入（从结果上看涨点不明显）这些trick来提升自监督深度估计的性能了。在下图中正好在性能和计算量维度对比文章方法与FSM和SurroundDepth方法：

可以看到这个self-attention操作还是有很大改进空间的，这篇文章中是使用与当前视图相关的左右视图参与到attention计算过程，那么可以进一步将这样的操作替换为deformable attention的操作这样还可以更进一步节省计算量和提升性能表现，这就跟deformable-DETR效果类似。但是需要注意相机曝光同步时刻是否匹配，若是不匹配就需要做额外操作修改来对齐了。

方法设计

其实文章的方法与SurroundDepth方法大体一致，区别在于对self-attention操作做了对应修改，替换成了下图中所示的efficient guided attention操作，如下图：

在上图中以当前视图构建query，之后将周围视图（可对应当前时刻或者其它时刻特征）作为key和val，通过寻找当前视图与周围视图的关联优化当前视图表达，而且可通过先验选择作为视图 1 3 \frac{1}{3} 31的区域作为有效区域，从而可以极大减少计算和显存开销。这样带来的好处便是可以增大参与计算的特征图分辨率从而提升深度估计性能，下表展示了特征图分辨率对于深度估计性能的影响：

在减少计算和显存开销的情况下还可以融合多时序的特征参与到当前时刻深度估计上来，则不同时序特征的引入对深度估计性能的影响见下表：

可以看到增加时序特征作为输入只有在这篇文章的方法上有些许涨点，在之前的surrounddepth上性能还出现了下降，这应该是self-attention无法从众多信息中很好学到对应有用信息，只是单纯增加了搜索空间。

实验结果

nuScenes上性能比较：

DDAD上性能比较：