Densely Semantically Aligned Person Re-Identification阅读笔记

Densely Semantically Aligned Person Re-Identification

Zhizheng Zhang，Cuiling Lan，Wenjun Zeng，Zhibo Chen 2018 CVPR

1. Motivation

提出了一个密集语义对比的行人reid方法，从根本上解决了由姿态/视点的变化、不完美的行人检测、遮挡等引起的body不对齐问题。通过利用对行人图像进行密集语义估计，本文构造了一组密集语义对齐的部分图像 (DSAP图像) ，其中不同图像的相同空间位置具有相同的语义。本文设计了一个双流网络，分别是完整图像的MF-Stream和密集语义对齐指导的DSAG-Stream，其中DSAG-Stream以DSAG图像作为输入，作为正则作用来引导(guide) MF-Stream 从原始图像中学习密集的语义对齐特征。在推理阶段，DSAG-Stream丢弃，只使用MF-Stream使得推理系统具有计算效率高、鲁棒性好等优点。本文是第一次利用细粒度语义来解决行人图像不对齐问题。

2. 介绍

ReID挑战：

3. 方法

图3说明了这一篇文章其实在每个stream中还是分global+local特征学习的两支路结构。而只不过下支路的学习不是之前的一些方法中用的直接暴力划分stripe，也不是检测part，而是一种密集语义对齐的任务，其目的是密集检测到行人part(更好的对齐)，而得到不同的行人part，这些part可以用于行人局部特征或全局特征学习，而MB-Ns包含N条支路，分别对应N个区域的特征学习(文中N=8)，得到的结果concat在一起，分global支路和local支路学习特征，即为下支路的情况。而推理时仅使用MF-Stream。损失就是图中的那几个损失，MF-Stream中的两个ID损失都是0.5的权重，而最后汇总处的两个ID损失是1.0权重，而两个Triplet损失是1.5权重，本质上还是三元组损失和交叉熵损失联调，而且设置让三元组损失更重要，最终汇总ID损失权重大于MF支路ID损失权重也就是为了让充分考虑到DSAG支路。

如上图，不是所有part都能检测到，因为有的图像捕捉时就没有这些区域(挡住了或错误检测)。

其中Dense Semantic Alignment模块是由DensePose在COCO-DesePose数据集上训练的结果，但没有做域适应，效果不是太好(因此作者使用的最终行人表示也只用MF分支)。

4. 实验

4.1 实验细节

4.2 和SOTA比

性能其实非常高。但本文其实是用了很多提点的tricks的，在2019年罗浩等人的strong baseline指出了能明显大幅提点的6个tricks，这里用了三个(实验细节中高亮部分)，而这6个tricks加上就能到86%的mAP，其余3个tricks包括Label smoothing,center loss和BNNeck，其中前两者提点不大，但BNNeck能提点很多，没看到代码不清楚作者用了没有。

其实可以看到在这里(二三行)，LS还是能提点不少的，而DSA在模型推理时，其实并没有贡献特征，因此相当于只是一个正则的作用，和LS作用类似。

模型整体性能还是相当高的。