Few-Shot Semantic Segmentation with Democratic Attention Networks阅读笔记
摘要
DAN机制可以激活更多的目标像素点,在support和query图像间构建一个稳固的关系。
介绍
目前大部分的小样本分割方法都是基于prototype来进行。这类方法用了一个两分支的编解码结构,这两个分支为support分支和query分支,support分支主要为了从support图像中提取到一个prototype类,query分支用这个得到的prototype来分割query图像。为了实现这个目的,使用全局平均池化来将support图像上的特征映射到一个向量上,让分割基于一个新的特殊矩阵,比如在全局向量与query图像的特征图的cos相似度。但是掩膜平均池化的操作不可避免地会导致丢失support图像上的空间信息,得到一个含噪声的输出。
考虑到这个问题,利用图注意力机制构建了在support和query图像的像素点到像素点的连接。然而,由于在像素间的偏好竞争,在support图像中只有前景目标的一小部分会被激活,这就会导致support和query图像的像素点之间的连接只有一小部分比较明显,很大程度地限制传递信息。
而本文的主要思想就是在训练时增大权重小的,抑制权重大的连接。 这样就可以通过处理更大的区域,而不是较小的特定区域,使得网络能够建立更加稳固的连接。 通过这种方法前景的所有像素点都能够参与到连接当中。同时,构建了一个多层图注意力来获得多层的语义信息,其中多层图进行编码,在解码部分使用提取融合单元(refinement fusion unit)进行融合多层注意力信息。
DAN ( Democratic Attention Network)
在小样本分割当中,训练集Dtrain与测试集Dtest中的类别是不重叠的,在实验过程中这些数据集会划分成多个子集,每个子集里面包含一个S={xsi,msi}si=1其中包含某个c类的k张xs图像,对应的二值掩膜ms,而ϑ\varthetaϑ={xq,mq}包含query图像xq和相关的真实掩膜mq。
训练过程是将在Dtrain里随意采样的support和query对进行训练,然后得到从{S,xq}到目标掩膜mq的映射。
可以从图中了解到DAN的作用就是构建support图像与query图像间的联系,然后将不同的语义层获取到的特征图{flaf^a_lfla}Ll=1输入到设计好的提取融合单元(refinement fusion unit RFU)来得到用于query图像实现多尺度的效果。将xq,(xs,ms)x^q ,(x^s,m^s)xq,(xs,ms)作为输入,然后输出query图像的分割图m^\hat{m}m^。
结构总览
首先对support图像与query图像都进行特征提取,使用的是一个共享权重参数网络,最后得到一些深度特征图
然后将得到的每个深度特征对输入到DGA(democratized graph attention)块中,得到在每一个独立语义层support与query之间的联系。这样就能够得到在多个语义层上的分层注意图{flaf^a_lfla}Ll=1。
DGA(democratized graph attention)
小样本分割的一个关键就是提取support图像信息,并且将其传递到query图像上。相比于prototype向量会丢失结构信息,本文基于图注意力机制,在support图像与query图像上建立了一种像素与像素的连接方式。但是在传统的图注意机制上倾向于表现一些最明显的区域,这个区域对于新的目标类鲁棒性差,泛化能力差,而本文所提出的DGA能够增强连接的鲁棒性。本文基于多层的语义特征构建了一个分层图,这个图能够得到更加准确的分割效果,将更加有关的信息从support图像传递到query图像上。
在每一个中间层,support图的特征和query图的特征作为DGA的输入。其中图3的卷积层就是将特征图f分别嵌入到键值映射(key map)k和值映射v当中,其中k常用于衡量query和support图像间的相关性,v存储特征图提取出来的细节信息。只要获取到了ks,kp,vs,vpk^s,k^p,v^s,v^pks,kp,vs,vp,就通过ks,kpk^s,k^pks,kp两者的图关系来构建像素关联。
图关系矩阵A使用pairwise函数g(⋅)g(\cdot)g(⋅)来计算所有query key map kqk^qkq与support key mapksk^sks的像素间的相似性。在query图像上的像素点i与support图像上的像素点j上的连接权重可以表示为:
在query以及support图像的像素点上使用g(⋅)g(\cdot)g(⋅)函数,可以得到连接图A∈RHW×HWA\in R^{HW\times HW}A∈RHW×HW.对图关系矩阵A在第一个维度下求平均值,然后产生在support图像As=∑iHWAi∈RH×MA^s =\sum^{HW}_iA_i\in R^{H\times M}As=∑iHWAi∈RH×M上的注意力图。其中得到的值表示了在support图像上的像素点与query图像上的所有像素点间的平均连接权重。
注意力图AsA^sAs通常反映了在support图像上的像素点的重要性,以及在指导query图像目标分割方面的重要性
然而,在一般的图注意力中,激活的像素倾向于落在一个小的具有判别性的区域,这个区域构成了连接。从图3中可以看出来,大部分的权重连接都在鸟的头上,这个主要是由于support像素中的偏好竞争导致,限制了从support图像传播信息到query图像上。
为了保证对新目标变体的泛化性,将会尽可能多的用上support图像标注目标的像素。为了实现这个目标,本文设计了一个新的DGA机制来构建更好的注意力u。确切来说,本文提出了在训练过程中进行排序以及重新分配在AsA^sAs上的每个像素关系。对AsA^sAs的像素进行降序排序,并且获取到像素点j的排序索引eje_jej,然后根据对应的索引再重新分配像素点j上的权重连接,具体由函数ϕ(Ajs,e)\phi(A^s_j,e)ϕ(Ajs,e)计算得到.
其中H,W表示AsA^sAs的高和宽。之后,具有高连接权重的像素被抑制,因此像素的其他部分能够得到增强,具体看上图3。其中鸟的身体上的像素被激活了。重新构造的注意力图A^s\hat A^sA^s用于计算权重关系图
激活的像素点将会扩展到前景目标中的一些没有判别性的区域,并且这样就会有更多的像素会用在信息传播上,这样就能够得到更强的鲁棒性以及泛化能力。与dropout相似,DGA在训练过程中,只用在样本的一小部分。最后,模型在新目标的分割过程中学习获取到使用support图像上的更多前景目标的像素点的能力。
除此之外,为了在不同像素上的连接权重具有可比较性,对这些像素使用softmax函数进行了归一化,并且产生了归一化的图关系矩阵A^′\hat A'A^′。然后support值映射vsv^svs与A′A'A′的乘积进行了加权和,然后与query值映射vqv^qvq进行串接,得到注意力特征图faf^afa
在这里是获取到了位置i上的输出注意力特征图,其他位置上的特征也是这样得到。
Multi-Scale Guidance
另一个关键就是充分使用从support图像上提取到的信息,然后指导query图像的分割。将DGA模块用在不同的语义层上,产生多个注意特征图{fla}l=1L\lbrace f^a_l\rbrace^L_{l=1}{fla}l=1L,这里面包含了前景目标的不同层语义信息。为了充分利用到这个注意力特征图,设计了一个以序列的方式提纯融合单元使用对应的解码层来融合{fla}l=1L\lbrace f^a_l\rbrace^L_{l=1}{fla}l=1L中的多层信息。
如图2.提纯融合单元在解码网络中对输入使用二值上采样法进行上采样,并且使用一个残差网络将对应处理过后的注意力特征图进行串接。串接后的特征图使用一个卷积模块进行处理,产生一个密度表示图(dense representation map)。最后层的提纯融合单元的输出输入到一个卷积层,同时一个softmax操作用于区分每个像素。softmax的输出层有两个概率的通道图,分别表示前景和背景。获取到query图形的预测分割图是把选取每个像素的最大概率的对应类的标签。
Few-Shot Semantic Segmentation with Democratic Attention Networks阅读笔记相关推荐
- Adversarial disentanglement spectrum variations and cross-modality attention networks阅读笔记
Adversarial disentanglement spectrum variations and cross-modality attention networks for NIR-VIS fa ...
- 《A Survey on Deep Learning Technique for Video Segmentation》视频分割综述阅读笔记(翻译)
<A Survey on Deep Learning Technique for Video Segmentation>视频分割综述阅读笔记(背景部分翻译) 作者:Wenguan Wang ...
- BEGAN: Boundary Equilibrium Generative Adversarial Networks阅读笔记
BEGAN: Boundary Equilibrium Generative Adversarial Networks阅读笔记 摘要 我们提出了一种新的用于促成训练时生成器和判别器实现均衡(Equil ...
- Extract Semantic Structure from Documents Using Multimodal Fully Convolutional Neural Networks阅读笔记
Learning to Extract Semantic Structure from Documents Using Multimodal Fully Convolutional Neural Ne ...
- 《ICNet for Real-Time Semantic Segmentation on High-Resolution Images》论文笔记
代码地址:ICNet 1. 概述 导读:这篇文章主要研究的是实时场景下的分割任务,现有的方法对于像素级分割是很难在较大比例上减少运算的计算量的.这篇文章对此提供了解决办法,提出了图像级联网络(Imag ...
- EDVR: Video Restoration with Enhanced Deformable Convolutional Networks阅读笔记
EDVR: Video Restoration with Enhanced Deformable Convolutional Networks EDVR:基于增强可变形卷积网络的视频恢复 论文:htt ...
- 视频重建论文EDVR: Video Restoration with Enhanced Deformable Convolutional Networks阅读笔记
论文来源:CVPRW2019 论文链接:http://ieeexplore.ieee.org/document/9025464 项目地址:GitHub - xinntao/EDVR: Winning ...
- Occlusion Aware Facial Expression RecognitionUsing CNN With Attention Mechanism阅读笔记
论文链接:https://ieeexplore.ieee.org/document/8576656 代码链接:https://github.com/mysee1989/PG-CNN 主要目的 通过注意 ...
- REASONING ABOUT ENTAILMENT WITH NEURAL ATTENTION 论文阅读笔记
原文链接:http://cn.arxiv.org/pdf/1509.06664 读这篇论文的目的在于另一篇阅读理解的文章使用了这其中的方法 摘要部分 问题的引入,目前自然语言处理领域对于句子的蕴含关系 ...
最新文章
- YOLOv4 论文翻译
- bzoj异或之[查询异或和的第k小]
- java 基本类型的引用_Java中的基本数据类型与引用数据类型
- FreeRTOS实验_独立看门狗监视多线程
- 【学术相关】高校教师提前离职需支付“天价违约金”,坑!
- mysql 共享锁和排他锁 意向锁 记录锁 Gap Locks Next-Key Locks 插入意向锁介绍
- 艾欧币 不需繁琐存币不用学习使用钱包
- 刘强东发新年信:过去一年我们异常艰难
- C++ 指针数组与数组指针汇总
- 对话张悦然:当年新概念作文大赛获奖者 现在怎样了
- 36. Web 主机托管
- javaWeb过滤器——Filter
- knx智能照明控制系统电路图_智能照明控制系统(KNX)
- L5语言模型与数据集
- 批量图片处理:如何给多个图片都加上连续的序号?
- 诸神战纪堕落天使java_诸神战纪-堕落天使路西法
- window7中出现 你需要权限来执行此操作 的解决方法
- ISCC2021 Web WP
- 初识mac 之设置篇
- skipping incompatible xxxx.a when searching for -lxxx问题的解决