Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark
西安交通大学
针对 基于文本的行人检索的预训练 展开探索

Motivation
Data Scarcity

Contributions

  • MALS(Multi-Attribute and Language Search dataset for person retrieval):本文引入了一个大型的多属性和语言搜索数据集,用于基于文本的person retrieval,包含150万+图像-文本对,比现有的CUHK-PEDES大37.5倍,所有图像都有丰富的(27个)属性注释。
  • APTM(Attribute Prompt Learning and Text Matching Learning)框架,基于MALS提出了一种联合属性提示学习和文本匹配学习框架,考虑属性和文本之间的shared knowledge,两个任务互补并相互受益。
  • 提出的方法在三个具有挑战性的real-world基准实现了competitive的召回率。此外,我们观察到文本匹配任务也有助于属性识别,在PA-100K上对APTM进行微调,我们获得(obtain)82.58%mA的具有竞争性的性能。

MALS

  1. 将其他数据集的文本描述作为prompts,利用扩散模型(ImaginAIry)生成图像-文本对;
  2. 针对生成的不能满足训练需求的图像进行后处理(post-process)。删除灰度、模糊和嘈杂的图像,利用OpenPose检测的关键点作为紧凑的边界框重新剪裁图像;
  3. 图像描述校准:初始图像-文本对中的多个图像共享相同的文本描述,导致文本多样性较差。因此,我们利用BLIP模型为每一张合成图像生成对应的文本描述,最终形成图像-文本对,示例Fig. 1。
  4. 属性注释:我们首先以和Market-1501属性数据集相同的属性空间。通过文本关键词匹配(显示匹配和隐式扩展),自动为每一对图像-文本对注释了27种不同类型的属性,如Table 2。
    (相关的属性通常突出图像和文本样本的关键特征,许多基于文本的person retrieval工作表明了属性在性能改进方面的潜力,受此启发,我们用属性标注进一步增强了我们的MALS。)

    Fig.1. Selected image-text pairs from our MALS (top) and CUHK-PEDES (bottom). We could observe that the visual gap between synthetic data and real ones is relatively small. In MALS, image-text pairs match almost as well as manual annotation, although there are some flaws occasionally. It is worth noting that images in MALS are high-fidelity with rich and diverse variations in terms of pose, appearance, background, etc.
    Table 2: Attribute space consists of 27 attributes. Here we show the attribute category, the name in the annotation file, and the available label choices.

APTM
联合属性提示学习和文本匹配学习框架

可以简单理解为权重shared的双流结构吗

实验在CUHK-PEDES、RSTPReid和ICFG-PEDES数据集上评估了APTM(微调过程中优化ITC、ITM和MLM损失)。APTM在三个数据集上均达到了SOTA的R1

Table 3: Performance Comparison on CUHK-PEDES

这篇能学一下文章撰写结构

【图文】统一的基于文本的行人检索:大规模多属性和语言检索基准相关推荐

  1. 【深度学习】CVPR 2022 | 百变发型!中科大/微软/港城大提出HairCLIP:基于文本和参考图像的头发编辑方法...

    图1 本方法单独地或联立地支持来自图像和文本域的条件输入以完成头发编辑 本文介绍我们在CVPR 2022关于基于文本和参考图像完成头发编辑的工作.该工作将文本和参考图像条件统一在了一个框架内,在单个模 ...

  2. ICCV2021- 牛津大学新的预训练视频文本数据集WebVid-2M,设计用于端到端检索的联合视频和图像编码器!代码已开源!...

    关注公众号,发现CV技术之美 ▊ 写在前面 视频文本检索的挑战包括视觉网络结构的设计 和训练数据的性质 ,因为可用的大规模视频文本训练数据集 (例如HowTo100M) 是noisy的,因此只能通过大 ...

  3. 基于文本和语音的双模态情感分析

    作者 | 陆昱博士 追一科技 来源 | DataFunTalk 今天和大家分享的主题是基于文本和语音的双模态情感分析.大家可能会从自然语言处理的角度认为情感分析已经做得比较成熟了,缺少进一步研究的方向 ...

  4. TPAMI 2021 | 时间走向二维,基于文本的视频时间定位新方法兼顾速度与精度

    ©作者 | 张宋扬.彭厚文等 来源 | 机器之心 当时间的维度从一维走向二维,时序上的建模方式也需要相应的改变.本文提出了多尺度二维时间图的概念和多尺度二维时域邻近网络(MS-2D-TAN)用于解决视 ...

  5. 手把手!基于领域预训练和对比学习SimCSE的语义检索(附源码)

    之前看到有同学问,希望看一些偏实践,特别是带源码的那种,安排!今天就手把手带大家完成一个基于领域预训练和对比学习SimCSE的语义检索小系统. 所谓语义检索(也称基于向量的检索),是指检索系统不再拘泥 ...

  6. CVPR2022-HairCLIP:基于文本和参考图像的头发编辑方法论文理解

    图1 图像.文本单独或联合编辑发型图 本文作者提出了一种新的头发编辑交互模式,可以根据用户提供的文本或参考图像单独或联合操作发型和发色属性. 前言: 本文是基于StyleCLIP和StyleGAN两种 ...

  7. CVPR 2022 | 百变发型!中科大/微软/港城大提出HairCLIP:基于文本和参考图像的头发编辑方法...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 图1 本方法单独地或联立地支持来自图像和文本域的条件输入以完成头发编辑 本文介绍我们在CVPR 2022关于 ...

  8. TPAMI 2021 | 让时间走向二维,基于文本的视频时间定位新方法:MS-2D-TAN,兼顾速度与精度!...

    关注公众号,发现CV技术之美 本文转载自机器之心 作者:张宋扬.彭厚文.傅建龙.卢亦娟.罗杰波 当时间的维度从一维走向二维,时序上的建模方式也需要相应的改变.本文提出了多尺度二维时间图的概念和多尺度二 ...

  9. 基于文本和图像的网络舆情分析方法研究

    基于文本和图像的网络舆情分析方法研究 一.舆情分析技术 (1)舆情数据采集与提取技术: (2)自动文摘技术: (3)事件发现与追踪技术: (4)舆情情感分析技术. 二.舆情情感分析模型 (1)基于知识 ...

  10. X-Pool:多伦多大学提出基于文本的视频聚合方式,在视频文本检索上达到SOTA性能!(CVPR 2022)...

    关注公众号,发现CV技术之美 本文分享 CVPR 2022 论文『X-Pool: Cross-Modal Language-Video Attention for Text-Video Retriev ...

最新文章

  1. 图像处理和计算机视觉中的经典论文(部分)
  2. spring BeanPostProcessor,BeanFactoryPostProcessor作用
  3. Solaris、Mac OS系统日志分析工具
  4. 获取 子文件夹 后缀_CSDN学院第一个Ptython Homework-- 递归统计文件夹大小
  5. aix pax_通过Pax考试对JBoss Fuse 6.x进行集成测试,第一部分
  6. 面试题4,打印出100-999所有的“水仙花数”。
  7. vue——走马灯-类轮播图
  8. mysql 8.0.25 取巧解决修改密码报错问题
  9. 单点登录 cas 设置回调地址_单点登录落地实现技术有哪些,有哪些流行的登录方案搭配?...
  10. go redis 清空所有值_【大厂面试】面试官看了赞不绝口的Redis笔记二
  11. 【MongoDB for Java】Java操作MongoDB
  12. 小米平板5有望8月发布:骁龙870+120Hz刷新率屏
  13. ios开发 多人语音聊天_客户端实现(iOS)
  14. 发票管理软件_企业为什么需要采购管理软件?
  15. 音视频常见码率、帧率等概念介绍
  16. python re模块的(...),group(),groups()
  17. wps怎么删掉分节符_怎样删除分页符(批量删除wps文档中展示分页符)
  18. 谈谈对springboot的理解
  19. 【LOJ#10064】黑暗城堡
  20. 贝勒大学计算机专业,贝勒大学(Baylor University)_贝勒大学申请条件_津桥留学【23年专注留学服务】...

热门文章

  1. 你知道到底什么才是 Valhalla 项目么?
  2. 设计模式(16)行为型模式 - 模板方法模式
  3. 原 apps被拒绝的各种理由以及翻译
  4. 老板拖欠工资,程序员怒将项目开源,竟火爆GitHub!
  5. 2022中国自动驾驶领域最具商业合作价值企业盘点
  6. 联想更新BIOS,支持linux系统
  7. C语言实现粒子群算法
  8. 响铃: AR颠覆美妆生态 美妆相机从相机到社区还有多远?
  9. flutter 第三方插件汇总
  10. 计算机扫盲教案,小学信息技术听课记录