【行人重识别论文阅读笔记—

[阅读心得] 行人重识别经典论文——PCB&RPP

写在前面
- 1. Abstract
- 2. Related Work
- 3. PCB
- - 3.1 Architecture
  - 3.2 Within-Part Inconsistency
- 4. RPP
- - 4.1 Architecture
  - 4.2 Induced Training
- 5. Analysis

写在前面

通过将整体目标分为多个部分进行特征提取，在行人重识别领域已经被证实能够有效提升ReID性能。然而怎么分割更为合理、需不需要额外的标注工作仍然有待探索。本文也着重讨论了这两个问题。

1. Abstract

本文主要由两部分工作构成：

提出了一种简单的分部特征提取网络：PCB(Part-based Conv Baseline)，将输入目标等分后分别进行特征提取
提出了一种细化分割区域的模块：RPP(Refined Part Pooling)，在PCB的基础上通过半监督学习的方式精细调整各区域的划分，从而更加适应行人不同区域的特征

2. Related Work

基于深度学习的、划分不同part进行推理的ReID网络主要有两类：

基于额外先验信息：利用行人动作估计等额外信息进行分割，但是这需要额外的标注工作，如上图(a)、(b)均为此类工作；
不依赖额外信息：不依赖额外信息的，仅靠聚类（c图工作）或注意力机制（d、e图工作）进行目标分割；

3. PCB

3.1 Architecture

PCB的总体结构如上图所示，其主要流程为：
1）图像通过Backbone提取特征后得到三位的特征块T
2）对tensor T进行N等分
3）等分后的特征块按照channel axis进行Global Average Pooling操作，得到N个column向量g
4）colume vector经过1x1卷积降维后，得到N个向量h
5）向量h通过相互独立的FC层输出N个特征向量作为网络的结果

3.2 Within-Part Inconsistency

从上文介绍可以看出，PCB网络的结构非常简单，就是提前对特征进行N等分，随后即可正常输出N个特征向量，这理论上一定比只输出一个特征向量所蕴含的信息要多，效果也理应更好。

但是，这种Hard Partition的做法依旧是非常粗暴武断的，通过对T中各个位置的column vector和经过pooling后得到的g进行比较发现：虽然这种分割总体上合理，但是有些位置的特征并非与其所在Part最为匹配，而是与其他Part的特征更为匹配，这就需要我们调整Partition的方式，下面的RPP就在做这样的事。

4. RPP

4.1 Architecture

参考3.2中的分析，作者提出一种基于Softmax的Part分类层RPP：

$P(P_i|f) = softmax(W_i^T f) = \frac{exp(W_i^T f)} {\sum_{j=1}^p exp(W_j^T f) }$

其中， $P_i$ 表示N个Part之一， $W$ 是可学习参数， $f$ 表示Tensor T中各个column vector
该层的目的是：将Tensor T块中每一个column vector通过表示的概率分配到与其最相近的Part中去。

如上图，将其添加进PCB的方法也非常简单：在原有网络的Global Avg Pooling层之前，用RPP取代等分层即可。对应的向量g的计算规则变为：考虑所有与当前Part概率不为0的f的加权期望

4.2 Induced Training

按照构想，RPP确实能够细化Partition，但是这个结构缺乏有效的监督信息进行训练，因此作者提供了一个半监督模式的训练方法如下：

值得注意的是，作者比较了是否首先训练一个Standard PCB的差别发现：这一环节为网络提供了一个模板，会让RPP层在N等分的基础上进行微调。而不加入这一环节，RPP的作用将和直接引入attention类似。通过实验比较：前者的效果是明显由于后者的。

5. Analysis

本工作将ReID网络中的目标划分为了多个特征进行提取，并且通过半监督学习的方法对划分方法进行了微调，值得借鉴。
笔者认为，如果这种方法要迁移到车辆ReID任务中，分割方法需要重新考量，因为与行人不同，车辆似乎没有“头、身、腿、脚”这样明确的节点，另外如果要应用到车辆MOT任务中，其必然会带来比生成单一embedding更多的推理时间消耗，另外这些网络是否会对检测效果其负作用也需要考量。