场景分割是目前应用前景非常广泛的方向之一,对场景进行精确的分割始终有着显著的实际意义并且极富挑战。来自中国科学院自动化研究所模式识别国家重点实验室的文章《Dual Attention Network for Scene Segmentation》采用了创新的双重注意力,在传统的主干网络FCN中加入了双注意力模块,将两个注意力模块的输出相加来进一步改进特征表示,最终自适应地了集成空间和通道维度本地特征的全局依赖性,在该任务上取得了优秀的效果。

论文地址:
https://arxiv.org/abs/1809.02983

数据集

Cityscapes数据集,训练集2979张图片,验证集500张图片,测试集1525张图片,共有19种标签。
PASCAL VOC 2012数据集,训练集10582张图片,验证集1449张图片和测试集1456张图片,共有20中标签。
PASCAL Context数据集,训练集4998张图片,测试集5105张图片。

模型

模型结构


在场景分割问题中,相同的物体在不同的光照、位置等情况下是很不相似的,由于卷积计算具有局部感受野,而相同标签又有着像素的差异,这些原因导致传统的FCN分割效果不佳。因此在本论文中,通过作者设计的DANet将注意力机制扩展到场景分割任务中,使得特征表示更加紧凑,有效的提高了分割的准确性。模型整体使用一个预训练的带有膨胀卷积的残差网络为主干,在最后两个残差块中去除下采样并且使用膨胀卷积(操作和deeplab前半部分基本类似),然后将特征图输入到两个并行的注意力模块。上半部分为空间注意力模块,下半部分为通道注意力模块。
空间注意力模块首先使用卷积层得到降维的特征,之所以降维是因为这样可以很好的提取特征并且附带着降低运算量,再者,因为自注意力模块计算的是自身的注意力,假如不通过卷积层,通常任何位置必然和自己拥有最大的softmax值,难以得到表达能力强的attention权值矩阵。接着,通过注意力公式得到空间注意矩阵。


自注意力公式是将一个batch内三维张量按照空间展开成两维,一维为空间位置,另一维为通道层数,通过自身对自身的矩阵乘法再做softmax得到自注意力权重矩阵。得到权重矩阵之后,自身与权重矩阵做矩阵乘法最终得到自注意力生成的矩阵,改变维度为三维张量,即由空间注意矩阵和D以及最原始的输入A得到空间注意特征图。

通道注意力模块整体流程和空间注意力模块类似,唯一的区别是不需要卷积层进行降维,通道注意力不降维是实验得出的结果。


实验结果



从比较结果可知,双注意力都可以得到更加精确有效的空间表达,从位置和类别两方面让语义分割的结果更优秀。

在Cityscapes测试集中,DANet性能优于所有的现有方法,在平均IOU上达到81.5%的指标。

结论

通过实验结果的定性与定量分析可知,双重注意力模块能够有效地得到大范围内特征的全局依赖性,从空间位置关系和通道类别关系两方面优化特征的表达能力,使分割结果更加精确。与此同时也可知,NLP中提出的self attention不仅在文本任务中表现优秀,在图像的各个领域同样表现良好,提醒我们多交叉使用不同方向的思想。


扫码识别关注,获取更多论文解读

CVPR 2019 | 用于场景分割的双重注意力网络相关推荐

  1. 特征图注意力_CCNet:用于语义分割的交叉注意力网络

    此篇文章内容源自 CCNet: Criss-Cross Attention for Semantic Segmentation,若侵犯版权,请告知本人删帖. 此篇文章是论文 CCNet: Criss- ...

  2. 《Hierarchical Attention Network for Document Classification》—— 用于文本分类的层次注意力网络

    目录 <Hierarchical Attention Network for Document Classification>-- 用于文本分类的层次注意力网络 1.文本分类 1.1 文本 ...

  3. FEANet——基于 RGBT的实时语义分割特征增强注意力网络

    Overview Title:FEANet: Feature-Enhanced Attention Network for RGB-Thermal Real-time Semantic Segment ...

  4. Stacked Attention Networks for Image Question Answering(用于图像问答的堆叠注意力网络)

    Stacked Attention Networks for Image Question Answering Abstract 1.introduction 2. 相关工作 略 3.堆叠注意力网络( ...

  5. Dynamic Routing-中科院西交旷视(孙剑团队)提出用于语义分割的动态路由网络,精确感知多尺度目标,代码已开源!...

    关注公众号,发现CV技术之美 ▊ 写在前面 近年来,大量手工设计和基于搜索的网络被用于语义分割.然而,以前的工作(如FCN.U-Net和DeepLab系列)希望在预定义的静态网络结构中处理不同规模的输 ...

  6. 深度学习论文导航 | 07 PANet:用于实例分割的路径聚合网络

    文章目录 一.PANet简介 二.整体结构分析 2.1 自底向上的路径增强 2.2 自适应特征层 2.3 全连接融合层 三.性能表现 3.1 在COCO上的测试效果 3.2 在Cityscapes 和 ...

  7. 论文浅尝 | KGAT: 用于推荐的知识图注意力网络

    笔记整理 | 李爽,天津大学 链接:https://arxiv.org/pdf/1905.07854v1.pdf 动机 为了提供更准确.多样化和可解释的推荐,必须超越对用户-项目交互的建模,并考虑辅助 ...

  8. 论文推荐:CCNet用于语义分割的交叉注意力

    CCNet, Transformer递归交叉自注意力,比非局部神经网络更有效.华中科技大学.地平线.ReLER 和伊利诺伊大学香槟分校联合研发 论文提出了交叉网络 (CCNet),对于每个像素,CCN ...

  9. CVPR 2019 | 基于场景图信息的图像描述生成方法

    在image captioning任务中,常规的encoder-decoder框架都是利用检测网络,如CNN提取特征,然后直接送到decoder端进行解码生成句子.文章<Auto-Encodin ...

最新文章

  1. 使用雪花id或uuid作为Mysql主键,被老板怼了一顿!
  2. 简单介绍SQL中ISNULL函数使用方法
  3. gear s3刷android wear,3星gear|3星gear s3自动选择手表刷机办法图文详细教程以及风险介绍...
  4. 人工智能写出第一篇文章:我真的没想要消灭你们,人类!
  5. 差分霍尔器件测量电路
  6. 实现账号在一端登入_跟我学spring security 基于数据库实现一个基本的登入登出...
  7. 集合的势也称集合的基数(cardinal number)
  8. 那些年,因为英语不好所闹出的笑话!
  9. Shell脚本对Linux进行文件校验
  10. oracle 中增加行,Oracle中实现FORM表单插入、锁定、更新行、删除行的包
  11. python判断火车票座位_Python抢票程序优化,可以选择车次和座次
  12. LockSupport实现线程通信
  13. 限制UITextView中的字数
  14. 文献阅读-Pan-Cancer Analysis of lncRNA Regulation Supports Their Targeting of Cancer Genes in Each Tumor
  15. dpkg-buildpackage: error: debian/rules binary subprocess was killed by signal 2
  16. ElasticSearch全文搜索引擎之索引和文档的API操作详解
  17. Linux 课程设计 每日小结
  18. xps转jpeg图片
  19. 织梦php调用模型,织梦dede新建模型中自定义联动类别调用
  20. 「镁客·请讲」移康智能朱鹏程:做产品就要直击痛点,多余的功能只会是噱头...

热门文章

  1. 便携式五参数水质检测仪通过通过校准计量了
  2. 智能默认值:关于库和框架
  3. 使用Ollydbg去除WinRar的广告
  4. GIF动态图如何转换成MP4?教你一招搞定
  5. IMU(惯性测量单元)学习
  6. python中常用英语口语_课堂上,常用到的英语口语有哪些。?
  7. python matplotlib 画棘状图和叠加柱状图
  8. 如何用tensorflow board可视化训练过程的详细过程
  9. python uwsgi+nginx部署
  10. python课程设计的主要任务_清华大学出版社-图书详情-《Python课程设计-微课视频版》...