2019 ICCV的一篇SOTA,文章[1]提出了多样专注网络Attentive but Diverse Network,ABD-Net(真是个不羁放纵爱自由的名字呢╮(╯▽╰)╭)。ABD-Net主要包含了注意力模块(attention module)和多样性正则化/频谱值差分正交正则化(Diversity Regularization/spectral value difference orthogonality (SVDO))两个部分,其旨在结合注意力模块和多样性作为相互补充的机制,共同提高ReID表现。通过在多个benchmark上的验证,ABD-Net证明了这个设计的成功,并达到了新的SOTA。

论文一览:

源码:

https://github.com/VITA-Group/ABD-Net

痛点

1)作者提出,基于注意力机制的模型倾向于更高相关性特征,或者说注意力机制倾向于使特征专注在更紧凑地子空间中(比如对比整张图,图1中的前景),低特征相关性不能天然地被注意力模型所保证。而前人工作使用注意力机制提取基于空间模式的局部特征,导致特征常常关注图像前景,忽视了低相关性特征。

2)一般权重的正交性施加严格的约束经常使用SVD(奇异值分解)。这些常用的基于SVD的硬正交约束在计算上成本很高,这将限制了模型学习的灵活性。

因此作者提出了结合attention module和SVDO regularization的ABD-Net,其中ABD-Net的attention module结合了空间和通道信息,提取的attention mask可直接从数据和上下文中学习,而无需依赖手动定义的零件,零件区域建议或姿势估计,而SVDO regularization通过直接约束Gram矩阵的条件数,约束可以避免过度关联和冗余的注意力特征。

模型

1 注意力模块 Attention Module

ABD-Net的attention模块包括Channel Attention Module(CAM) and Position Attention Module (PAM)。

类似于Dual Attention Network for Scene Segmentation[2]中的channel attention,其中CAM结构如下图2:

CAM分4路最下路为残差连接,上3路将(C,H,W)/(channel,height,width)的张量reshape成了(C,N(N=H*W))的matrix,其中最上路对(C, N)转置为(N,C),被第二路的(C,N)matrix点乘,得到(C,C)的matrix,经过softmax得到attention的概率图X,与第三行的(C,N)matrix进行elementwise multiplication,至此attention mask的施加完成,将得到的(C,N)的matrix重新reshape成(C,H,W),与原输入残差连接,如下式,CAM结束。

其中γ为CAM的权重因子。

Position Attention Module (PAM)结构如下图3:

输入经过convolution,BN和ReLU得到B,C,D。与CAM非常相似的,第一行和第二行reshape成(C,N),第一行转置为(N,C),后二者做点积,这次得到的是(N,N)的matrix,经过softmax得到attention的概率图S,对第三行的(C,N)的matrix施加,得到(C,N)matrix,reshape回(C,H,W),经过残差链接,PAM结束。

其中关于S和X的区别,看似只是矩阵乘积换了位置,实际S计算的是总的N个像素之间(spatial)的相关性,而X计算的是不同C之间(channel)的像素相关性,这是不一样的。

2 正交正则化 Orthogonality Regularization

作为得到特征多样性的补充,文章提出了正交正则化Orthogonality Regularization/Diversity Regularization/spectral value difference orthogonality (SVDO),其包括特征空间正交正则化Orthogonality regularizer on feature space(简称O.F.),和权重正交正则化The orthogonal regularizer on weight (O.W.)。O.F.用于减少使得直接匹配获益的特征相关性,O.W.用于鼓励卷积filter的多样性和学习能力。

对输入的feature map M∈RC×H×WM\in \mathbb{R}^{C\times H\times W}MRC×H×W,使其reshape成F∈RC×NF\in \mathbb{R}^{C\times N}FRC×N,这时候很多硬正交约束会使用SVD,但是SVD计算成本过高。这时候就有许多的软正则化函数通过限制F的Gram矩阵接近Frobenius范数下的恒等矩阵,这样可以避免SVD,且保持可微。但是由于矩阵的秩不足,可能会使F无法满足这一恒等性,从而使这些正则化方法出现偏差。

因此文章引入了基于频谱范数的正则化器(regularizer),可有效减轻偏差。

文章通过直接正则化协方差矩阵FFTFF^{T}FFT的条件数来施加正交性,如下式(3):

其中k(F)为条件数(F的最大奇异值与最小奇异值之比,反应矩阵的奇异程度),β为系数.由于计算k(F)需要进行SVD分解,为了避免这个事咧,文章将式(3)转化为了频谱值差分正交性(SVDO)正则化,如下式(4):

其中λ1(FFT)\lambda_{1}(FF^{T})λ1(FFT)λ2(FFT)\lambda_{2}(FF^{T})λ2(FFT)分别为FFTFF^{T}FFT的最大和最小特征值。

在梯度下降训练过程中,作者使用自动微分方法来得到SVDO的梯度,但是目前为止,该过程仍然需要求计算负担很重的特征值分解,为避免此过程,文章使用幂迭代法(power iteration)来求得近似特征值。随机一个q值,然后迭代计算(5)式(默认2次):

经过这些修改,整个计算过程都会变得高效。

3 ABD-Net总网络

ABD-Net总结构示意图如下图4:

backbone还是ResNet50,文章在ResNet50基础上,在res_conv2输出处加入CAM和O.F.,在res_conv1到res_conv5的所有conv layers中加入O.W.。网络res_conv4之后令网络分为两支路,如图4,上路为attention branch,下路为global branch,

attention branch照搬了ResNet50的res_conv5,输出的feature map经过一个reduction layer(包含linear layer,BN,ReLU和dropout,还使用了O.F.)得到比较小的feature map,然后分别个CAM和PAM(均使用了O.F.),他们的输出和reduction layer的输出进行堆叠,给global average pooling,attention branch结束。

在global branch,经过res_conv5(两个branch的res_conv5都去掉了down-sampling layer,将输出更大的feature map)后输出给global average pooling+reduction layer,得到vector,global branch结束。

两路branch的输出最终将堆叠到一起,作为最后的feature进行求loss。ABD-Net的loss为:

其中LO.F.L_{O.F.}LO.F.LO.W.L_{O.W.}LO.W.为SVDO惩罚项,而β为超参数调节不同loss的比重。

实验

在Market1501和Duke的分离实验如下:

其中XE为使用ResNet50+cross entropy loss的baseline配置。SVD layer是类似于SVD-Net[3]的正则化方式对照组。

在Market的SOTA实验如下:

在Duke的SOTA实验如下:

在MSMT17的SOTA实验如下:

注意力热图可视化结果如下:

相关矩阵的可视化如下:

可以看到注意力将feature embedding带到高相关性,而多样性减小了冗余并进一步提高了判别力。

相关性直方图:

tSNE可视化如下:

检索结果实例如下:

写作

写作写得很好,文章结构比较清晰,从ABD-Net到下辖的两个部分:attention module和spectral
value difference orthogonality (SVDO) Regularization,都做了全面的对相关痛点的阐述和本文工作的优势。

比如写spectral value difference orthogonality (SVDO) Regularization的内容就包括:

“orthogonality constraint”;

“is applied to both activations and weights, and is shown to effectively reduce learned feature correlations.”;

“efficiently enforces diversity on both hidden activations and weights.”;

“our added diversity constraint will avoid the overly correlated and redundant
attentive features.”;

“the gram matrix for an overcomplete F cannot reach identity because of rank deficiency, making those regularizers biased.hence introduced the spectral norm-based regularizer
that effectively alleviates the bias.”;

参考文献

[1] Chen T, Ding S, Xie J, et al. ABD-Net: Attentive but Diverse Person Re-Identification[C]. international conference on computer vision, 2019: 8351-8361.

[2] Fu J, Liu J, Tian H, et al. Dual Attention Network for Scene Segmentation[C]. computer vision and pattern recognition, 2019: 3146-3154.

[3] Yifan Sun, Liang Zheng, Weijian Deng, and Shengjin Wang. Svdnet for pedestrian retrieval. 2017 IEEE International Conference on Computer Vision (ICCV), Oct 2017.

【ReID】ABD-Net: Attentive but Diverse Person Re-Identification相关推荐

  1. 【ReID】Harmonious Attention Network for Person Re-Identification

    [ReID]Harmonious Attention Network for Person Re-Identification 模型 实验 写作 问题 参考文献 阅读了Harmonious Atten ...

  2. 【ReID】Beyond Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional...

    [ReID]Beyond Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional Bas ...

  3. 【ReID】AlignedReID: Surpassing Human-Level Performance in Person Re-Identification

    [ReID]AlignedReID: Surpassing Human-Level Performance in Person Re-Identification 模型 实验 写作 问题 参考文献 阅 ...

  4. 【ReID】AlignedReID ++ : Dynamically matching local information for person re-identification

    [ReID]AlignedReID ++ : Dynamically matching local information for person re-identification 模型 实验 问题 ...

  5. 【Re-ID】现有方法调研 - 无监督/半监督方法 - 其他方法

    文章目录 问题是什么 论文合集 [1.OSNet : Learning Generalisable Omni-Scale Representations for Person Re-Identific ...

  6. 【ReID】局部特征

    文章目录 1.概述 1.1 全局特征 1.2 局部特征 姿态 Part&Attention 水平池化 网格特征 2. 水平切块 2.1 Gate Siamese 2.2 AlignedReID ...

  7. 【ReID】Densely Semantically Aligned Person Re-Identification

    密集语义对齐的行人重识别(DSA-reID),2019 CVPR的一篇工作[1].DSA-reID在网络中包括全图像主流程main full image stream (MF-Stream),密集语义 ...

  8. 【ReID】Joint Discriminative and Generative Learning for Person Re-identification

    2019年CVPR的著名SOTA,现有方法中的生成模型pipeline与判别式re-id学习阶段保持相对分离,而作者反其道行之,提出了一种端到端地耦合ReID学习和图像生成的学习模型DG-Net.该包 ...

  9. 【ReID】表征学习和度量学习

    文章目录 1.表征学习 1.1分类损失 1.2验证损失 1.3表征学习总结 2.度量学习 2.1 Introduction 2.2 对比损失 2.3 三元组损失 2.4 改进三元组损失 2.5 四元组 ...

最新文章

  1. 如何扩展EAS主界面?0514
  2. 配置tomcat8数据源(采用局部数据源方式)
  3. JavaScript的变量作用域深入理解(转)
  4. 正则表达式收藏(四)之MySQL的正则
  5. boost::exception的用法测试
  6. 模型评估准确率、召回率、ROC曲线、AUC总结
  7. mysql group by 区分null 值和非null_你知道mysql中空值和null值的区别吗
  8. 真效率神器,UI稿智能转换成前端代码,准确率极高
  9. 助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源
  10. 每日算法系列【LeetCode 312】戳气球
  11. 优化模型之指派问题(整数规划)
  12. 3d打印机自动调平Marlin固件配置
  13. Secondary Maps (Detail Maps) Detail Mask 二级贴图(细节贴图)细节遮罩 Standard Shader系列14
  14. linux动态频率调节系统cpufreq,Linux的cpufreq(动态变频)技术
  15. 微信小程序 学习第一天
  16. linux waitpid 用法,linux的fork(),waitpid()及wait()的用法
  17. 解决RK3328 RealTek 8822CS检测不到WIFI模块问题
  18. 网络层IP协议和数据链路层
  19. 千亿云计算市场,相见恨晚的企业私有云存储平台
  20. arraycoy java,LifeAsia 功能通过Java转移到Web

热门文章

  1. php notice undefined variable,PHP错误提示,Notice: Undefined variable
  2. 深入理解Linux内核使用浮点运算问题
  3. cloudera-scm-agent start 启动失败
  4. Transformer 和卷积神经网络在跨物种基因组DNA N6甲基腺嘌呤位点识别中的应用
  5. 利用百度ocr识别验证码
  6. DNA数字信息存储的研究进展
  7. 流密码(一)同步流密码、自同步流密码以及线性反馈移位寄存器
  8. 42表盘直径是从哪测量_表盘直径多大合适,怎样测量手表表盘的直径
  9. 考研 | 一战南大软院险进复试后失利被刷,调剂国科大杭高院荣幸上岸
  10. 【嵌入式】SIM808/SIM900发送短信AT指令0X1A