SAMNet: Stereoscopically Attentive Multi-scale Network for Lightweight Salient Object Detection

显著性物体检测的轻量级立体注意力多尺度网络

原文链接:https://www.researchgate.net/publication/350161009_SAMNet_Stereoscopically_Attentive_Multi-Scale_Network_for_Lightweight_Salient_Object_Detection

作者:Yun Liu*, Xin-Yu Zhang*, Jia-Wang Bian, Le Zhang, Ming-Ming Cheng

摘要:近年来在显著目标检测(SOD)方面的进展主要得益于卷积神经网络(CNNs)的爆炸性发展。然而,大部分的改进来自于更大的网络规模和更重的计算开销,在我们看来,这并不友好,在实践中难以部署。为了推广更实用的SOD系统,我们引入了一种新的立体注意力多尺度(SAM)模块,它采用了立体注意力机制,自适应地融合了不同尺度的特征。在这个模块上,我们提出了一个非常轻量级的网络,用于SOD,即SAMNet。在流行基准上进行的大量实验表明,对于仅使用1.33M参数的336×336的输入,在343fps的GPU速度和5fps的CPU速度下运行时,所提出的SAMNet与最先进的方法具有相当的精度。

文章概述

本文针对现有的显著性目标检测方法普遍存在网络规模越来越大,计算量大的问题,提出了一个轻量级的立体注意力多尺度模块。

骨干网:使用所提出的SAM模块作为基本单元,构建一个FCN结构。
多尺度融合:输入特征图的多尺度融合;立体注意力多尺度融合。
立体注意力机制:元素相乘的方式将空间注意力和通道注意力融合。

SAMNet的整体编码器-解码器架构。Si和Ri分别表示第i阶段编码器和解码器的输出特征图。Pi为第i阶段预测的显著性图,P1为SAMNet的最终预测。G是ground-truth。PPM表示著名的金字塔池化模块。

SAM模块–多尺度融合

上图为简单的多尺度融合

采用具有不同dilation rates的空洞卷积来捕获多尺度信息,并使用深度可分离卷积来减少浮点操作和模型参数。

(1) 让I作为输入特征图,通道数,高度和宽度分别为C、H和W。对于I,首先使用一个3×3的深度可分离卷积(DSConv3×3)提取每个分支的公共信息F0。

K0 表示一个DSConv3×3操作。

(2) 在不同的分支上,对F0采用不同dilation rates的空洞深度可分离卷积。

Ki表示在分支i处的空洞可分离卷积操作,N是分支数量。

(3) 然后将不同尺度的上下文信息通过一个残差连接进行元素相加。

这里用的是元素相加,没有使用concatenation的原因是concatenation会增加通道数量,导致更大的计算复杂度。

(4) 最后,采用一个Conv1×1对聚合的特征进行重新排列。

Kfuse表示使用conv1×1运算来融合不同尺度的上下文信息。
dilation rates和分支的数量是多尺度模块中超参数。当输入特征I具有高分辨率时,需要更大的dilation rates和更多的分支。(经验得来)

/提出注意力机制

上述多尺度融合中的元素求和其实是一个潜在的缺点。

因为当对不同分支的上下文信息进行直接求和时,信息性分支可能被非信息性分支削弱甚至淹没。

不同网络深度的层可能更喜欢来自不同尺度的信息,而元素级求和对所有尺度的重要性相同。此时盲目的馈入所有特征可能会导致过拟合。

针对这个问题本文提出了一种新的立体注意力机制,允许每个空间位置的每个通道通过一种软注意力机制自适应的调整每个分支的权重。

SAM模块—立体注意力机制

上图为立体注意力机制图片,也是本文阐述的地方。

(文中提出的立体注意力机制,就是将通道注意力结果和空间注意力机制的结果进行元素相乘得到的结果)

一般情况下我们认为一个理想的注意力模块应该具有以下功能:
·由于每个通道相互独立,最终的注意点应该有很强的通道内依赖性。(如果来自特定通道的特征可以对最终预测提供信息,那么同一分支的同一通道中的特征也很可能可以提供信息)

最终的注意力应该具有很强的空间依赖性。作为一个中层任务,SOD需要对每个像素的局部区域进行一定程度的推理。

综上,这就要求注意机制分别以全局和局部的方式得到规范。所以本文将最终注意权重v分解成空间和通道两个单独的权重。

通道注意力机制

为了计算每个分支的通道注意向量WiD∈RC使用通道注意力机制。
采用全局平均池化的(GAP)方法将全局信息嵌入到融合的特征图M上,以探索不同通道中间的关系。[Z=FGAP(M),Z为M的潜在向量编码通道信息]

然后在潜在向量上应用两层的多层感知器(MLP),并在不同尺度上提取通道信息d。[d=FMLP(Z)]

在分支上应用softmax获得通道注意力WiD。并将其复制到与FD相同的形状。
所以,原来的↓可以被重写为↓。



可以用于FD以作为输出。

空间注意力机制

计算一个空间注意图WiS∈RH×W,以突出或抑制特定位置的激活。
我们采用空洞深度扩张卷积,在保持低计算复杂度的同时扩大接收域。

首先将融合后的特征M通过Conv1×1投影到低维空间,以减少参数和计算量。然后,采用两个空洞深度扩张卷积来简化特征,实现上下文信息的高效聚合。最后,使用一个Conv1×1将特征简化为R(N+1)×H×W。


可以用于FS以作为输出。

SAM模块


定义了d和s后,将softmax函数应用于分支维度上的立体注意力v,得到Wi


可以用于FV以作为SAM模块的输出。

网络结构

使用所提出的SAM模块作为基本单元构建了一个FCN结构。在前5个阶段,我们使用2步长的DSConv3×3对输入进行下采样,并调整通道数。然后,使用SAM模块学习多尺度上下文信息。
由于输入特征图具有较高的分辨率,所以在前两个阶段只使用一个SAM模块来避免沉重的计算开销。从第三阶段到第五阶段,堆叠多个SAM模块,以扩大接受域和丰富深度卷积表示。reception field感受野。
第五阶段之后,采用一个空间金字塔池化(PPM)来进一步增强全局特征的学习。
使用Si表示骨干各阶段的输出特征图。对于顶部特征的融合,我们对S5采用一个Conv1×1来调整通道的数量,并通过元素相加的方法融合S5和S6。然后们采用空洞DSConvk×k来进一步整合融合操作。对于底部特征的融合,对顶部特征进行上采样,以匹配底部阶段的特征图的空间分辨率。

SAM模块中dilation rates和分支数量的默认配置。M表示模块数量。

实验

本文的SAMNet在6个显著物体的数据集上进行训练,证明了此方法的有效性。采用平均绝对误差(MAE),调和平均值(Fβ)作为指标,并与其它先方法作比较。

结果对比

总结

这篇文章不只是考虑精度,而且在效率、参数和FLOPs之间进行权衡。
提出一个SAM模块,使小型网络能够有效地对高级特性和低级细节进行编码。
结合了SAM模块,提出的SAMNet与使用更多参数的最先进的SOD方法对比,实现了相当的性能,同时节省了很大的开销。

(说明一下,我在看论文的时候没有找到相关博客,就自己抠了论文,然后写了博客,如果侵权,联系我会删除的。)

SAMNet: Stereoscopically Attentive Multi-scale Network for Lightweight Salient Object Detection相关推荐

  1. [论文阅读] Stereoscopically Attentive Multi-scale Network for Lightweight Salient Object Detection

    论文地址:https://dx.doi.org/10.1109/TIP.2021.3065239 代码:https://mmcheng.net/SAMNet 发表于:TIP 2021 Abstract ...

  2. Dynamic Selective Network for RGB-D Salient Object Detection

    Dynamic Selective Network for RGB-D Salient Object Detection 用于 RGB-D 显着目标检测的动态选择网络 IEEE TRANSACTION ...

  3. 【arXiv2022】GroupTransNet: Group Transformer Network for RGB-D Salient Object Detection

    paper:https://arxiv.org/abs/2203.10785 目录 一 动机 二 方法 三 网络框架 3.1 模态纯化模块(MPM) 3.2 尺度统一模块 (SUM) 3.3 多 Tr ...

  4. [论文阅读] BCNet: Bidirectional collaboration network for edge-guided salient object detection

    论文地址:https://doi.org/10.1016/j.neucom.2021.01.034 发表于:Neurocomputing 2021 Abstract 边缘质量是准确显著目标检测成功与否 ...

  5. Bilateral attention network for RGB-D salient object detection阅读笔记

    IEEE 2021 Zhao Zhang; Zheng Lin; Jun Xu; Wen-Da Jin; Shao-Ping Lu; Deng-Ping Fan 论文地址 一.简介 提出了双边注意模块 ...

  6. [2021]Cross-modality Discrepant Interaction Network for RGB-D Salient Object Detection

    目录 一.动机 二.相关工作 三.跨模态差异交互网络(CDINet) 3.1. RGB 诱导的细节增强(RDE) 模块: 3.2. 深度诱导语义增强(DSE)模块: 3.3. 密集解码重建(DDR)模 ...

  7. Lightweight Adversarial Network for Salient Object Detection

    Abstract 作者提出了一种用于显着目标检测(salient object detection)的轻量级对抗网络,该网络通过进行对抗性训练来实现更高阶的空间一致性,并分别通过轻量级bottlene ...

  8. ECCV 2020预会议 直播笔记| Suppress and Balance: A Simple Gated Network for Salient Object Detection

    目标跟踪基础与智能前沿 寻找 目标跟踪方向的小伙伴,如果你苦于没有地方可以和同方向的小伙伴交流,我们创建了一个交流群,点上方链接可以进入,每周的交流活动通过该号宣传,群里随时随地可以展开讨论,无论是学 ...

  9. A2dele: Adaptive and Attentive Depth Distiller for Efficient RGB-D Salient Object Detection

    A2dele: Adaptive and Attentive Depth Distiller for Efficient RGB-D Salient Object Detection 2020 IEEE ...

最新文章

  1. 史上最全的高可用服务系统线上问题排查工具单(一)
  2. python struct
  3. Jackson 注解 -- 使用构造器
  4. Android——SQLite实现面向对象CRUD
  5. 第一篇 Entity Framework Plus 之 Audit
  6. html读取servlet,简单html与servlet交互(HTML利用servlet读取txt)
  7. python3 set相关操作
  8. redhat 7 防火墙配置
  9. Java系统中如何拆分同步和异步
  10. 在java编程中会使用汉字字符_在java程序中将中文字符写入文件中或者是将文件中的中文字符读入程序时会出现乱码或者一串“?”,求...
  11. GdiPlus[29]: IGPPen: 虚线样式
  12. k8s集群PHP环境使用
  13. Android Sensor架构和原理分析
  14. ORACLE RAC 视频教程
  15. Java读取TXT文件中文输出乱码
  16. 自顶向下(top down)简介
  17. python曲线镜像_在Python中以对角方式镜像图像
  18. HttpWatch(功能详细介绍)
  19. matlab锂电池充电电路,锂离子电池充放电电路模型及其仿真.doc
  20. 不撞南墙不回头----深度优先搜索

热门文章

  1. 黑苹果能登录苹果账号吗_你能让我的网站更像苹果吗
  2. mysql表设计 不同价格_数据库表设计,不同的属性值会有不同的价格
  3. vim常用命令和快捷键
  4. 鸿蒙HarmonyOS DevEco Studio 常用快捷键
  5. 中国玻璃检验机市场现状研究分析与发展前景预测报告
  6. Android真机调试访问本地Tomcat服务器(4步解决)
  7. python 笔记1
  8. php+防御+xss,PHP的防御XSS注入的终极解决方案
  9. 《Java1996》03:啥是面向对象?
  10. lvextend遇到的问题