【ReID】ABD-Net: Attentive but Diverse Person Re-Identification

2019 ICCV的一篇SOTA，文章[1]提出了多样专注网络Attentive but Diverse Network，ABD-Net（真是个不羁放纵爱自由的名字呢╮(╯▽╰)╭）。ABD-Net主要包含了注意力模块（attention module）和多样性正则化/频谱值差分正交正则化（Diversity Regularization/spectral value difference orthogonality (SVDO)）两个部分，其旨在结合注意力模块和多样性作为相互补充的机制，共同提高ReID表现。通过在多个benchmark上的验证，ABD-Net证明了这个设计的成功，并达到了新的SOTA。

论文一览：

源码：

https://github.com/VITA-Group/ABD-Net

痛点

1）作者提出，基于注意力机制的模型倾向于更高相关性特征，或者说注意力机制倾向于使特征专注在更紧凑地子空间中（比如对比整张图，图1中的前景），低特征相关性不能天然地被注意力模型所保证。而前人工作使用注意力机制提取基于空间模式的局部特征，导致特征常常关注图像前景，忽视了低相关性特征。

2）一般权重的正交性施加严格的约束经常使用SVD（奇异值分解）。这些常用的基于SVD的硬正交约束在计算上成本很高，这将限制了模型学习的灵活性。

因此作者提出了结合attention module和SVDO regularization的ABD-Net，其中ABD-Net的attention module结合了空间和通道信息，提取的attention mask可直接从数据和上下文中学习，而无需依赖手动定义的零件，零件区域建议或姿势估计，而SVDO regularization通过直接约束Gram矩阵的条件数，约束可以避免过度关联和冗余的注意力特征。

模型

1 注意力模块 Attention Module

ABD-Net的attention模块包括Channel Attention Module(CAM) and Position Attention Module (PAM)。

类似于Dual Attention Network for Scene Segmentation[2]中的channel attention，其中CAM结构如下图2：

CAM分4路最下路为残差连接，上3路将（C，H，W）/（channel，height，width）的张量reshape成了（C，N(N=H*W)）的matrix，其中最上路对（C, N）转置为（N，C），被第二路的（C，N）matrix点乘，得到（C，C）的matrix，经过softmax得到attention的概率图X，与第三行的（C，N）matrix进行elementwise multiplication，至此attention mask的施加完成，将得到的（C，N）的matrix重新reshape成（C，H，W），与原输入残差连接，如下式，CAM结束。

其中γ为CAM的权重因子。

Position Attention Module (PAM)结构如下图3：

输入经过convolution，BN和ReLU得到B,C,D。与CAM非常相似的，第一行和第二行reshape成（C，N），第一行转置为（N,C），后二者做点积，这次得到的是（N，N）的matrix，经过softmax得到attention的概率图S，对第三行的（C，N）的matrix施加，得到（C，N）matrix，reshape回（C，H，W），经过残差链接，PAM结束。

其中关于S和X的区别，看似只是矩阵乘积换了位置，实际S计算的是总的N个像素之间（spatial）的相关性，而X计算的是不同C之间（channel）的像素相关性，这是不一样的。

2 正交正则化 Orthogonality Regularization

作为得到特征多样性的补充，文章提出了正交正则化Orthogonality Regularization/Diversity Regularization/spectral value difference orthogonality (SVDO)，其包括特征空间正交正则化Orthogonality regularizer on feature space（简称O.F.），和权重正交正则化The orthogonal regularizer on weight (O.W.)。O.F.用于减少使得直接匹配获益的特征相关性，O.W.用于鼓励卷积filter的多样性和学习能力。

对输入的feature map $M∈RC×H×WM\in \mathbb{R}^{C\times H\times W}$ ，使其reshape成 $F∈RC×NF\in \mathbb{R}^{C\times N}$ ，这时候很多硬正交约束会使用SVD，但是SVD计算成本过高。这时候就有许多的软正则化函数通过限制F的Gram矩阵接近Frobenius范数下的恒等矩阵，这样可以避免SVD，且保持可微。但是由于矩阵的秩不足，可能会使F无法满足这一恒等性，从而使这些正则化方法出现偏差。

因此文章引入了基于频谱范数的正则化器（regularizer），可有效减轻偏差。

文章通过直接正则化协方差矩阵 $FF^{T}$ 的条件数来施加正交性，如下式（3）：

其中k(F)为条件数（F的最大奇异值与最小奇异值之比，反应矩阵的奇异程度），β为系数.由于计算k(F)需要进行SVD分解，为了避免这个事咧，文章将式（3）转化为了频谱值差分正交性（SVDO）正则化，如下式（4）：

其中 $λ1(FFT)\lambda_{1}(FF^{T})$ 和 $λ2(FFT)\lambda_{2}(FF^{T})$ 分别为 $FF^{T}$ 的最大和最小特征值。

在梯度下降训练过程中，作者使用自动微分方法来得到SVDO的梯度，但是目前为止，该过程仍然需要求计算负担很重的特征值分解，为避免此过程，文章使用幂迭代法（power iteration）来求得近似特征值。随机一个q值，然后迭代计算（5）式（默认2次）：

经过这些修改，整个计算过程都会变得高效。

3 ABD-Net总网络

ABD-Net总结构示意图如下图4：

backbone还是ResNet50，文章在ResNet50基础上，在res_conv2输出处加入CAM和O.F.，在res_conv1到res_conv5的所有conv layers中加入O.W.。网络res_conv4之后令网络分为两支路，如图4，上路为attention branch，下路为global branch，

attention branch照搬了ResNet50的res_conv5，输出的feature map经过一个reduction layer（包含linear layer，BN，ReLU和dropout，还使用了O.F.）得到比较小的feature map，然后分别个CAM和PAM（均使用了O.F.），他们的输出和reduction layer的输出进行堆叠，给global average pooling，attention branch结束。

在global branch，经过res_conv5（两个branch的res_conv5都去掉了down-sampling layer，将输出更大的feature map）后输出给global average pooling+reduction layer，得到vector，global branch结束。

两路branch的输出最终将堆叠到一起，作为最后的feature进行求loss。ABD-Net的loss为：

其中 $L_{O.F.}$ 和 $L_{O.W.}$ 为SVDO惩罚项，而β为超参数调节不同loss的比重。

实验

在Market1501和Duke的分离实验如下：

其中XE为使用ResNet50+cross entropy loss的baseline配置。SVD layer是类似于SVD-Net[3]的正则化方式对照组。

在Market的SOTA实验如下：

在Duke的SOTA实验如下：

在MSMT17的SOTA实验如下：

注意力热图可视化结果如下：

写作

写作写得很好，文章结构比较清晰，从ABD-Net到下辖的两个部分：attention module和spectral
value difference orthogonality (SVDO) Regularization，都做了全面的对相关痛点的阐述和本文工作的优势。

比如写spectral value difference orthogonality (SVDO) Regularization的内容就包括：

“orthogonality constraint”；

“is applied to both activations and weights, and is shown to effectively reduce learned feature correlations.”；

“efficiently enforces diversity on both hidden activations and weights.”；

“our added diversity constraint will avoid the overly correlated and redundant
attentive features.”；

“the gram matrix for an overcomplete F cannot reach identity because of rank deficiency, making those regularizers biased.hence introduced the spectral norm-based regularizer
that effectively alleviates the bias.”；

参考文献

[1] Chen T, Ding S, Xie J, et al. ABD-Net: Attentive but Diverse Person Re-Identification[C]. international conference on computer vision, 2019: 8351-8361.

[2] Fu J, Liu J, Tian H, et al. Dual Attention Network for Scene Segmentation[C]. computer vision and pattern recognition, 2019: 3146-3154.

[3] Yifan Sun, Liang Zheng, Weijian Deng, and Shengjin Wang. Svdnet for pedestrian retrieval. 2017 IEEE International Conference on Computer Vision (ICCV), Oct 2017.