【ReID】ABD-Net: Attentive but Diverse Person Re-Identification
2019 ICCV的一篇SOTA,文章[1]提出了多样专注网络Attentive but Diverse Network,ABD-Net(真是个不羁放纵爱自由的名字呢╮(╯▽╰)╭)。ABD-Net主要包含了注意力模块(attention module)和多样性正则化/频谱值差分正交正则化(Diversity Regularization/spectral value difference orthogonality (SVDO))两个部分,其旨在结合注意力模块和多样性作为相互补充的机制,共同提高ReID表现。通过在多个benchmark上的验证,ABD-Net证明了这个设计的成功,并达到了新的SOTA。
论文一览:
源码:
https://github.com/VITA-Group/ABD-Net
痛点
1)作者提出,基于注意力机制的模型倾向于更高相关性特征,或者说注意力机制倾向于使特征专注在更紧凑地子空间中(比如对比整张图,图1中的前景),低特征相关性不能天然地被注意力模型所保证。而前人工作使用注意力机制提取基于空间模式的局部特征,导致特征常常关注图像前景,忽视了低相关性特征。
2)一般权重的正交性施加严格的约束经常使用SVD(奇异值分解)。这些常用的基于SVD的硬正交约束在计算上成本很高,这将限制了模型学习的灵活性。
因此作者提出了结合attention module和SVDO regularization的ABD-Net,其中ABD-Net的attention module结合了空间和通道信息,提取的attention mask可直接从数据和上下文中学习,而无需依赖手动定义的零件,零件区域建议或姿势估计,而SVDO regularization通过直接约束Gram矩阵的条件数,约束可以避免过度关联和冗余的注意力特征。
模型
1 注意力模块 Attention Module
ABD-Net的attention模块包括Channel Attention Module(CAM) and Position Attention Module (PAM)。
类似于Dual Attention Network for Scene Segmentation[2]中的channel attention,其中CAM结构如下图2:
CAM分4路最下路为残差连接,上3路将(C,H,W)/(channel,height,width)的张量reshape成了(C,N(N=H*W))的matrix,其中最上路对(C, N)转置为(N,C),被第二路的(C,N)matrix点乘,得到(C,C)的matrix,经过softmax得到attention的概率图X,与第三行的(C,N)matrix进行elementwise multiplication,至此attention mask的施加完成,将得到的(C,N)的matrix重新reshape成(C,H,W),与原输入残差连接,如下式,CAM结束。
其中γ为CAM的权重因子。
Position Attention Module (PAM)结构如下图3:
输入经过convolution,BN和ReLU得到B,C,D。与CAM非常相似的,第一行和第二行reshape成(C,N),第一行转置为(N,C),后二者做点积,这次得到的是(N,N)的matrix,经过softmax得到attention的概率图S,对第三行的(C,N)的matrix施加,得到(C,N)matrix,reshape回(C,H,W),经过残差链接,PAM结束。
其中关于S和X的区别,看似只是矩阵乘积换了位置,实际S计算的是总的N个像素之间(spatial)的相关性,而X计算的是不同C之间(channel)的像素相关性,这是不一样的。
2 正交正则化 Orthogonality Regularization
作为得到特征多样性的补充,文章提出了正交正则化Orthogonality Regularization/Diversity Regularization/spectral value difference orthogonality (SVDO),其包括特征空间正交正则化Orthogonality regularizer on feature space(简称O.F.),和权重正交正则化The orthogonal regularizer on weight (O.W.)。O.F.用于减少使得直接匹配获益的特征相关性,O.W.用于鼓励卷积filter的多样性和学习能力。
对输入的feature map M∈RC×H×WM\in \mathbb{R}^{C\times H\times W}M∈RC×H×W,使其reshape成F∈RC×NF\in \mathbb{R}^{C\times N}F∈RC×N,这时候很多硬正交约束会使用SVD,但是SVD计算成本过高。这时候就有许多的软正则化函数通过限制F的Gram矩阵接近Frobenius范数下的恒等矩阵,这样可以避免SVD,且保持可微。但是由于矩阵的秩不足,可能会使F无法满足这一恒等性,从而使这些正则化方法出现偏差。
因此文章引入了基于频谱范数的正则化器(regularizer),可有效减轻偏差。
文章通过直接正则化协方差矩阵FFTFF^{T}FFT的条件数来施加正交性,如下式(3):
其中k(F)为条件数(F的最大奇异值与最小奇异值之比,反应矩阵的奇异程度),β为系数.由于计算k(F)需要进行SVD分解,为了避免这个事咧,文章将式(3)转化为了频谱值差分正交性(SVDO)正则化,如下式(4):
其中λ1(FFT)\lambda_{1}(FF^{T})λ1(FFT)和λ2(FFT)\lambda_{2}(FF^{T})λ2(FFT)分别为FFTFF^{T}FFT的最大和最小特征值。
在梯度下降训练过程中,作者使用自动微分方法来得到SVDO的梯度,但是目前为止,该过程仍然需要求计算负担很重的特征值分解,为避免此过程,文章使用幂迭代法(power iteration)来求得近似特征值。随机一个q值,然后迭代计算(5)式(默认2次):
经过这些修改,整个计算过程都会变得高效。
3 ABD-Net总网络
ABD-Net总结构示意图如下图4:
backbone还是ResNet50,文章在ResNet50基础上,在res_conv2输出处加入CAM和O.F.,在res_conv1到res_conv5的所有conv layers中加入O.W.。网络res_conv4之后令网络分为两支路,如图4,上路为attention branch,下路为global branch,
attention branch照搬了ResNet50的res_conv5,输出的feature map经过一个reduction layer(包含linear layer,BN,ReLU和dropout,还使用了O.F.)得到比较小的feature map,然后分别个CAM和PAM(均使用了O.F.),他们的输出和reduction layer的输出进行堆叠,给global average pooling,attention branch结束。
在global branch,经过res_conv5(两个branch的res_conv5都去掉了down-sampling layer,将输出更大的feature map)后输出给global average pooling+reduction layer,得到vector,global branch结束。
两路branch的输出最终将堆叠到一起,作为最后的feature进行求loss。ABD-Net的loss为:
其中LO.F.L_{O.F.}LO.F.和LO.W.L_{O.W.}LO.W.为SVDO惩罚项,而β为超参数调节不同loss的比重。
实验
在Market1501和Duke的分离实验如下:
其中XE为使用ResNet50+cross entropy loss的baseline配置。SVD layer是类似于SVD-Net[3]的正则化方式对照组。
在Market的SOTA实验如下:
在Duke的SOTA实验如下:
在MSMT17的SOTA实验如下:
注意力热图可视化结果如下:
相关矩阵的可视化如下:
可以看到注意力将feature embedding带到高相关性,而多样性减小了冗余并进一步提高了判别力。
相关性直方图:
tSNE可视化如下:
检索结果实例如下:
写作
写作写得很好,文章结构比较清晰,从ABD-Net到下辖的两个部分:attention module和spectral
value difference orthogonality (SVDO) Regularization,都做了全面的对相关痛点的阐述和本文工作的优势。
比如写spectral value difference orthogonality (SVDO) Regularization的内容就包括:
“orthogonality constraint”;
“is applied to both activations and weights, and is shown to effectively reduce learned feature correlations.”;
“efficiently enforces diversity on both hidden activations and weights.”;
“our added diversity constraint will avoid the overly correlated and redundant
attentive features.”;
“the gram matrix for an overcomplete F cannot reach identity because of rank deficiency, making those regularizers biased.hence introduced the spectral norm-based regularizer
that effectively alleviates the bias.”;
参考文献
[1] Chen T, Ding S, Xie J, et al. ABD-Net: Attentive but Diverse Person Re-Identification[C]. international conference on computer vision, 2019: 8351-8361.
[2] Fu J, Liu J, Tian H, et al. Dual Attention Network for Scene Segmentation[C]. computer vision and pattern recognition, 2019: 3146-3154.
[3] Yifan Sun, Liang Zheng, Weijian Deng, and Shengjin Wang. Svdnet for pedestrian retrieval. 2017 IEEE International Conference on Computer Vision (ICCV), Oct 2017.
【ReID】ABD-Net: Attentive but Diverse Person Re-Identification相关推荐
- 【ReID】Harmonious Attention Network for Person Re-Identification
[ReID]Harmonious Attention Network for Person Re-Identification 模型 实验 写作 问题 参考文献 阅读了Harmonious Atten ...
- 【ReID】Beyond Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional...
[ReID]Beyond Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional Bas ...
- 【ReID】AlignedReID: Surpassing Human-Level Performance in Person Re-Identification
[ReID]AlignedReID: Surpassing Human-Level Performance in Person Re-Identification 模型 实验 写作 问题 参考文献 阅 ...
- 【ReID】AlignedReID ++ : Dynamically matching local information for person re-identification
[ReID]AlignedReID ++ : Dynamically matching local information for person re-identification 模型 实验 问题 ...
- 【Re-ID】现有方法调研 - 无监督/半监督方法 - 其他方法
文章目录 问题是什么 论文合集 [1.OSNet : Learning Generalisable Omni-Scale Representations for Person Re-Identific ...
- 【ReID】局部特征
文章目录 1.概述 1.1 全局特征 1.2 局部特征 姿态 Part&Attention 水平池化 网格特征 2. 水平切块 2.1 Gate Siamese 2.2 AlignedReID ...
- 【ReID】Densely Semantically Aligned Person Re-Identification
密集语义对齐的行人重识别(DSA-reID),2019 CVPR的一篇工作[1].DSA-reID在网络中包括全图像主流程main full image stream (MF-Stream),密集语义 ...
- 【ReID】Joint Discriminative and Generative Learning for Person Re-identification
2019年CVPR的著名SOTA,现有方法中的生成模型pipeline与判别式re-id学习阶段保持相对分离,而作者反其道行之,提出了一种端到端地耦合ReID学习和图像生成的学习模型DG-Net.该包 ...
- 【ReID】表征学习和度量学习
文章目录 1.表征学习 1.1分类损失 1.2验证损失 1.3表征学习总结 2.度量学习 2.1 Introduction 2.2 对比损失 2.3 三元组损失 2.4 改进三元组损失 2.5 四元组 ...
最新文章
- 如何扩展EAS主界面?0514
- 配置tomcat8数据源(采用局部数据源方式)
- JavaScript的变量作用域深入理解(转)
- 正则表达式收藏(四)之MySQL的正则
- boost::exception的用法测试
- 模型评估准确率、召回率、ROC曲线、AUC总结
- mysql group by 区分null 值和非null_你知道mysql中空值和null值的区别吗
- 真效率神器,UI稿智能转换成前端代码,准确率极高
- 助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源
- 每日算法系列【LeetCode 312】戳气球
- 优化模型之指派问题(整数规划)
- 3d打印机自动调平Marlin固件配置
- Secondary Maps (Detail Maps) Detail Mask 二级贴图(细节贴图)细节遮罩 Standard Shader系列14
- linux动态频率调节系统cpufreq,Linux的cpufreq(动态变频)技术
- 微信小程序 学习第一天
- linux waitpid 用法,linux的fork(),waitpid()及wait()的用法
- 解决RK3328 RealTek 8822CS检测不到WIFI模块问题
- 网络层IP协议和数据链路层
- 千亿云计算市场,相见恨晚的企业私有云存储平台
- arraycoy java,LifeAsia 功能通过Java转移到Web
热门文章
- php notice undefined variable,PHP错误提示,Notice: Undefined variable
- 深入理解Linux内核使用浮点运算问题
- cloudera-scm-agent start 启动失败
- Transformer 和卷积神经网络在跨物种基因组DNA N6甲基腺嘌呤位点识别中的应用
- 利用百度ocr识别验证码
- DNA数字信息存储的研究进展
- 流密码(一)同步流密码、自同步流密码以及线性反馈移位寄存器
- 42表盘直径是从哪测量_表盘直径多大合适,怎样测量手表表盘的直径
- 考研 | 一战南大软院险进复试后失利被刷,调剂国科大杭高院荣幸上岸
- 【嵌入式】SIM808/SIM900发送短信AT指令0X1A