CVPR 2019 | 用于场景分割的双重注意力网络

场景分割是目前应用前景非常广泛的方向之一，对场景进行精确的分割始终有着显著的实际意义并且极富挑战。来自中国科学院自动化研究所模式识别国家重点实验室的文章《Dual Attention Network for Scene Segmentation》采用了创新的双重注意力，在传统的主干网络FCN中加入了双注意力模块，将两个注意力模块的输出相加来进一步改进特征表示，最终自适应地了集成空间和通道维度本地特征的全局依赖性，在该任务上取得了优秀的效果。

论文地址:
https://arxiv.org/abs/1809.02983

数据集

Cityscapes数据集，训练集2979张图片，验证集500张图片，测试集1525张图片，共有19种标签。
PASCAL VOC 2012数据集，训练集10582张图片，验证集1449张图片和测试集1456张图片，共有20中标签。
PASCAL Context数据集，训练集4998张图片，测试集5105张图片。

模型

模型结构

在场景分割问题中，相同的物体在不同的光照、位置等情况下是很不相似的，由于卷积计算具有局部感受野，而相同标签又有着像素的差异，这些原因导致传统的FCN分割效果不佳。因此在本论文中，通过作者设计的DANet将注意力机制扩展到场景分割任务中，使得特征表示更加紧凑，有效的提高了分割的准确性。模型整体使用一个预训练的带有膨胀卷积的残差网络为主干，在最后两个残差块中去除下采样并且使用膨胀卷积（操作和deeplab前半部分基本类似），然后将特征图输入到两个并行的注意力模块。上半部分为空间注意力模块，下半部分为通道注意力模块。
空间注意力模块首先使用卷积层得到降维的特征，之所以降维是因为这样可以很好的提取特征并且附带着降低运算量，再者，因为自注意力模块计算的是自身的注意力，假如不通过卷积层，通常任何位置必然和自己拥有最大的softmax值，难以得到表达能力强的attention权值矩阵。接着，通过注意力公式得到空间注意矩阵。

自注意力公式是将一个batch内三维张量按照空间展开成两维，一维为空间位置，另一维为通道层数，通过自身对自身的矩阵乘法再做softmax得到自注意力权重矩阵。得到权重矩阵之后，自身与权重矩阵做矩阵乘法最终得到自注意力生成的矩阵，改变维度为三维张量，即由空间注意矩阵和D以及最原始的输入A得到空间注意特征图。

通道注意力模块整体流程和空间注意力模块类似，唯一的区别是不需要卷积层进行降维，通道注意力不降维是实验得出的结果。

实验结果

从比较结果可知，双注意力都可以得到更加精确有效的空间表达，从位置和类别两方面让语义分割的结果更优秀。

在Cityscapes测试集中，DANet性能优于所有的现有方法，在平均IOU上达到81.5%的指标。

结论

通过实验结果的定性与定量分析可知，双重注意力模块能够有效地得到大范围内特征的全局依赖性，从空间位置关系和通道类别关系两方面优化特征的表达能力，使分割结果更加精确。与此同时也可知，NLP中提出的self attention不仅在文本任务中表现优秀，在图像的各个领域同样表现良好，提醒我们多交叉使用不同方向的思想。

扫码识别关注，获取更多论文解读