【图文】统一的基于文本的行人检索：大规模多属性和语言检索基准

Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark
西安交通大学
针对基于文本的行人检索的预训练展开探索

Motivation
Data Scarcity

Contributions

MALS(Multi-Attribute and Language Search dataset for person retrieval)：本文引入了一个大型的多属性和语言搜索数据集，用于基于文本的person retrieval，包含150万+图像-文本对，比现有的CUHK-PEDES大37.5倍，所有图像都有丰富的（27个）属性注释。
APTM(Attribute Prompt Learning and Text Matching Learning)框架，基于MALS提出了一种联合属性提示学习和文本匹配学习框架，考虑属性和文本之间的shared knowledge，两个任务互补并相互受益。
提出的方法在三个具有挑战性的real-world基准实现了competitive的召回率。此外，我们观察到文本匹配任务也有助于属性识别，在PA-100K上对APTM进行微调，我们获得（obtain）82.58%mA的具有竞争性的性能。

MALS

将其他数据集的文本描述作为prompts，利用扩散模型（ImaginAIry）生成图像-文本对；
针对生成的不能满足训练需求的图像进行后处理(post-process)。删除灰度、模糊和嘈杂的图像，利用OpenPose检测的关键点作为紧凑的边界框重新剪裁图像；
图像描述校准：初始图像-文本对中的多个图像共享相同的文本描述，导致文本多样性较差。因此，我们利用BLIP模型为每一张合成图像生成对应的文本描述，最终形成图像-文本对，示例Fig. 1。
属性注释：我们首先以和Market-1501属性数据集相同的属性空间。通过文本关键词匹配（显示匹配和隐式扩展），自动为每一对图像-文本对注释了27种不同类型的属性，如Table 2。
（相关的属性通常突出图像和文本样本的关键特征，许多基于文本的person retrieval工作表明了属性在性能改进方面的潜力，受此启发，我们用属性标注进一步增强了我们的MALS。）

Fig.1. Selected image-text pairs from our MALS (top) and CUHK-PEDES (bottom). We could observe that the visual gap between synthetic data and real ones is relatively small. In MALS, image-text pairs match almost as well as manual annotation, although there are some flaws occasionally. It is worth noting that images in MALS are high-fidelity with rich and diverse variations in terms of pose, appearance, background, etc.
Table 2: Attribute space consists of 27 attributes. Here we show the attribute category, the name in the annotation file, and the available label choices.

APTM
联合属性提示学习和文本匹配学习框架

可以简单理解为权重shared的双流结构吗

实验在CUHK-PEDES、RSTPReid和ICFG-PEDES数据集上评估了APTM（微调过程中优化ITC、ITM和MLM损失）。APTM在三个数据集上均达到了SOTA的R1

Table 3: Performance Comparison on CUHK-PEDES

这篇能学一下文章撰写结构

【图文】统一的基于文本的行人检索：大规模多属性和语言检索基准相关推荐

【深度学习】CVPR 2022 | 百变发型！中科大/微软/港城大提出HairCLIP：基于文本和参考图像的头发编辑方法...
图1 本方法单独地或联立地支持来自图像和文本域的条件输入以完成头发编辑本文介绍我们在CVPR 2022关于基于文本和参考图像完成头发编辑的工作.该工作将文本和参考图像条件统一在了一个框架内,在单个模 ...
ICCV2021- 牛津大学新的预训练视频文本数据集WebVid-2M，设计用于端到端检索的联合视频和图像编码器！代码已开源！...
关注公众号,发现CV技术之美 ▊ 写在前面视频文本检索的挑战包括视觉网络结构的设计和训练数据的性质 ,因为可用的大规模视频文本训练数据集 (例如HowTo100M) 是noisy的,因此只能通过大 ...
基于文本和语音的双模态情感分析
作者 | 陆昱博士追一科技来源 | DataFunTalk 今天和大家分享的主题是基于文本和语音的双模态情感分析.大家可能会从自然语言处理的角度认为情感分析已经做得比较成熟了,缺少进一步研究的方向 ...
TPAMI 2021 | 时间走向二维，基于文本的视频时间定位新方法兼顾速度与精度
©作者 | 张宋扬.彭厚文等来源 | 机器之心当时间的维度从一维走向二维,时序上的建模方式也需要相应的改变.本文提出了多尺度二维时间图的概念和多尺度二维时域邻近网络(MS-2D-TAN)用于解决视 ...
手把手！基于领域预训练和对比学习SimCSE的语义检索（附源码）
之前看到有同学问,希望看一些偏实践,特别是带源码的那种,安排!今天就手把手带大家完成一个基于领域预训练和对比学习SimCSE的语义检索小系统. 所谓语义检索(也称基于向量的检索),是指检索系统不再拘泥 ...
CVPR2022-HairCLIP:基于文本和参考图像的头发编辑方法论文理解
图1 图像.文本单独或联合编辑发型图本文作者提出了一种新的头发编辑交互模式,可以根据用户提供的文本或参考图像单独或联合操作发型和发色属性. 前言: 本文是基于StyleCLIP和StyleGAN两种 ...
CVPR 2022 | 百变发型！中科大/微软/港城大提出HairCLIP：基于文本和参考图像的头发编辑方法...
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达图1 本方法单独地或联立地支持来自图像和文本域的条件输入以完成头发编辑本文介绍我们在CVPR 2022关于 ...
TPAMI 2021 | 让时间走向二维，基于文本的视频时间定位新方法：MS-2D-TAN，兼顾速度与精度！...
关注公众号,发现CV技术之美本文转载自机器之心作者:张宋扬.彭厚文.傅建龙.卢亦娟.罗杰波当时间的维度从一维走向二维,时序上的建模方式也需要相应的改变.本文提出了多尺度二维时间图的概念和多尺度二 ...
基于文本和图像的网络舆情分析方法研究
基于文本和图像的网络舆情分析方法研究一.舆情分析技术 (1)舆情数据采集与提取技术: (2)自动文摘技术: (3)事件发现与追踪技术: (4)舆情情感分析技术. 二.舆情情感分析模型 (1)基于知识 ...
X-Pool：多伦多大学提出基于文本的视频聚合方式，在视频文本检索上达到SOTA性能！（CVPR 2022）...
关注公众号,发现CV技术之美本文分享 CVPR 2022 论文『X-Pool: Cross-Modal Language-Video Attention for Text-Video Retriev ...

【图文】统一的基于文本的行人检索：大规模多属性和语言检索基准

【图文】统一的基于文本的行人检索：大规模多属性和语言检索基准相关推荐

最新文章

热门文章