Deeply-Learned Part-Aligned Representations for Person Re-Identification 论文笔记

2024-05-16 08:30:13

一、提出问题

本文主要针对行人重识别过程中的身体部位错位匹配导致识别精度有限的问题进行研究。

由图1-1可以看出行人姿势多变，人体空间分布鲁棒性低，而且现有空间分割算法建立在人体空间分布大致相同的假设下，但这种假设并不总符合实际情况。

图1-1 身体部位对齐的必要性

二、论文贡献

提出了一种深度神经网络方法，它联合身体部位特征提取和特征计算，无需标记有关人体部位的信息，而是通过端到端方式最大化重识别精度用以学习模型的参数。与空间划分相比，本文的方法采取人体部分划分，因此对于人体姿势变化和边界框中的各种人体空间分布更加鲁棒。
实证结果表明，本文的方法在标准数据集Market -1501，CUHK03，CUHK01和VIPeR上有着优越的表现。

模型结构

设训练数据为，构造一个三元组，是正样本对（同一个人的图像），是负样本对（不同人的图像）。三元组的损失函数如下：

m是负样本对之间的距离大于正样本对之间距离的余量，本文将m设置为0.2。是欧几里德距离，是折页损失函数（hinge loss）。 h(I)是图像I提取出来的特征，因此整个损失函数如下：

3.1 人体部位对齐表示

输入：行人图像I
模型：全卷积神经网络（FCN）+部位网络（part net）
输出：行人的各部位的联合特征f

部位网络（part net）

输入：经过全卷积网络输出的行人特征图
中间层：K个分支，每个分支包括一个部位图检测器（类似卷积）、全局池化层、降维层，K个分支生成的部位特征连接成一个特征向量，经过L2正则化得到最终行人表示
输出：行人特征表示h(I)

设三维张量T表示从FCN输出的图像特征图，因此表示位置(x,y)上的第c个响应。部位特征图检测器可以估计2维特征图Mk，其中mk(x,y)从图像特征图T的指示位置(x,y)位于第k区域中的程度：

通过加权策略计算第k个区域的部分特征映射Tk为：

接着是平均池化算子，f(¯)k= AvePooling(Tk)，其中。后面连接一个线性降维层（由全连接层实现），将f(¯)k降低到维度特征向量。最后，将所有部位特征连接起来：

最后，进行L2归一化，输出行人表示h(I)。

3.2 优化器

通过最小化公式2中的三元组损失函数的和来优化网络参数，参数用θ表示。梯度计算如下：

因此，梯度函数可以转化为：

其中αn是取决于当前网络参数的权重向量，并计算如下：

公式7表明三元组损失的梯度计算与一元分类损失的梯度一样。因此，在SGD（随机梯度下降）的每次迭代中，选择一小批（M个）样本而不是对三元组的子集进行采样：前向传播的一次通过以计算每个样本的表示h（In），计算在小批量上的权重αn，计算梯度，最后在聚合小批量样本的梯度。直接选择一个三元组通常会导致包含更多（超过M个）样本，因此计算量比小批量采样更大。

四、实验结果

在各个数据集上选择8通道

Deeply-Learned Part-Aligned Representations for Person Re-Identification 论文笔记相关推荐

Exploiting Shared Representations for Personalized Federated Learning 论文笔记+代码解读
论文地址点这里一. 介绍联邦学习中由于各个客户端上数据异构问题,导致全局训练模型无法适应每一个客户端的要求.作者通过利用客户端之间的共同代表来解决这个问题.具体来说,将数据异构的联邦学习问题视为并 ...
人群场景的属性--Deeply Learned Attributes for Crowded Scene Understandin
Deeply Learned Attributes for Crowded Scene Understanding CVPR2015 http://www.ee.cuhk.edu.hk/~jshao/ ...
DeepID2+:Deeply Learned Attributes for Crowded Scene Understanding
参考文献:<DeepID2+:Deeply Learned Attributes for Crowded Scene Understanding> 1 网络结构 2 特征提取 3 人脸验证
Visual Question Answering with Textual Representations for Images 论文笔记
Visual Question Answering with Textual Representations for Images 论文笔记一.Abstract 二.引言三.方法 3.1 Lang ...
论文笔记--Deep contextualized word representations
论文笔记--Deep contextualized word representations 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 BiLM(Bidirectional Langu ...
论文笔记：Deeply-Learned Part-Aligned Representations for Person Re-Identification
论文笔记:Deeply-Learned Part-Aligned Representations for Person Re-Identification 简介这是ICCV2017的一篇person ...
论文笔记：Decoding Brain Representations by Multimodal Learning of Neural Activity and Visual Features
论文笔记:Decoding Brain Representations by Multimodal Learning of Neural Activity and Visual Features(通过 ...
论文笔记--Efficient Estimation of Word Representations in Vector Space
论文笔记--Efficient Estimation of Word Representations in Vector Space 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 NNLM ...
Real-time Multiple People Tracking with Deeply Learned Candidate Selection and Person Re-Identificat
文章地址:https://arxiv.org/abs/1809.04427 代码:https://github.com/longcw/MOTDT 0 摘要在线多目标跟踪是实时视频分析应用中的基本问题 ...
Deeply Learned Attributes for Crowded Scene Understanding
CVPR2015 http://www.ee.cuhk.edu.hk/~jshao/WWWCrowdDataset.html 代码 https://github.com/amandajshao/www ...

最新文章

热门文章