MM2022 | 在特征空间中的多模态数据增强方法

【写在前面】

每小时,社交媒体和用户生成的内容平台上都会发布大量的视觉内容。为了通过自然语言查询查找相关视频,文本视频检索方法在过去几年中受到了越来越多的关注。引入了数据增强技术,以通过使用语义保留技术 (例如图像上的颜色空间或几何变换) 创建新的训练样本来提高看不见的测试示例的性能。然而,这些技术通常应用于原始数据,导致更多资源需求的解决方案,并且还要求原始数据的可共享性,这可能并不总是正确的,例如电影或电视连续剧剪辑的版权问题。为了解决此缺点,作者提出了一种多模态数据增强技术,该技术可在特征空间中工作,并通过混合语义相似的样本来创建新的视频和字幕。作者在大规模的公共数据集,EPIC-Kitchens-100上实验本文的解决方案,并在基线方法上实现了相当大的改进,改善了最先进的性能,同时进行了多次消融研究。

1. 论文和代码地址

A Feature-space Multimodal Data Augmentation Technique for Text-video Retrieval

论文地址:https://arxiv.org/abs/2208.02080

代码地址:https://github.com/aranciokov/FSMMDA_VideoRetrieval

2. Motivation

每分钟上传到互联网的用户生成的视频内容数量不断增加,导致每分钟上传到YouTube的内容超过500小时,截至2020年2月。查找给定查询的相关视频需要计算机视觉和自然语言处理技术的结合,将此问题置于两个社区的交汇处。特别是,文本到视频检索任务通过要求基于其与输入查询的语义接近度对所有视频进行排序来涵盖此目标。

最近,深度学习技术被用来从多模态数据中自动提取特征,并学习如何解决此任务,展示其潜力并取得令人印象深刻的结果。但是,执行深度学习模型训练所需的大量注释数据代表了这些技术成功的重大限制。为此,通过众包平台收集了大量数据,在这些平台中,需要人工努力来仔细注释数据,从而导致标注者的繁琐任务和数据集收集器的巨额成本。使用这种方法获得的大规模数据集的示例包括msr-vtt 和VATEX 。为了降低收集成本,科学界主要研究了两种自动解决方案: web抓取和数据增强。在前者中,从Internet和相关注释中提取视觉内容是自动执行的,例如使用语音识别 ,替代文本或利用标签。尽管这种方法可能会导致巨大而丰富的数据集,但标注通常是嘈杂的,并且很难保证标注的质量。另一方面,数据增强技术通常用于通过利用已经可用的标注样本来人为地增加数据集的大小: 可以通过应用标签保留技术来获得新样本,从而提供语义上一致的数据并避免噪声。事实上,这些技术在许多领域都显示了巨大的潜力,无论是视觉社区,如分类和检测,还是语言处理社区,如文本摘要和文本分类。尽管增强已应用于视觉问答和图像字幕,但对于文本视频检索而言,这些技术的探索较少。为了解决这一缺点,作者研究了增强技术的应用,并提出了一种利用多模态信息 (视觉和文本) 进行文本视频检索的增强技术。特别是,本文的视频增强策略通过混合来自同一类的两个样本的视觉特征创建了一个新的增强视频,因此利用了从基于CNN的骨干的更深层自动提取的高级概念。这是通过在特征空间中执行增强来实现的,而不是常见的变换,例如用于图像的几何和颜色空间变换,这些变换应用于原始数据。实际上,在特征空间中工作会带来三个额外的优势: 相同的技术可以应用于来自不同模态的数据,例如作者在本文中展示的视频和文本数据,而无需进行大量更改; 它不依赖于原始视频或帧的可用性,由于隐私或版权问题,它们更难分享,也不总是可以分享的,例如,据报道,超过20% 的msr-vtt原始视频已从YouTube中删除,而MovieQA 的所有视频都面临版权问题; 最后,它可以应用于预先提取的特征,从而使其总体上不需要时间和资源。

3. 方法

学习文本视频检索任务的模型通常涉及两个神经网络,以计算输入视频和相关字幕的两种表示形式。然后,要求前面的网络调整它们的权重,以便计算视频和字幕两者的相似表示。通过这样做,输入字幕可以在给定其视频的排名列表的顶部,反之亦然。然而,多个字幕 (和视频) 可能同样相关,因此理应位于同一等级。因此,作者提出了一种多模态数据增强技术,该技术通过混合共享相似语义的视频和字幕来创建新的表示形式。增强是在特征空间中进行的,从而带来了多种优势: 通过处理从骨干的更深层中提取的特征,增强的表示包含高级概念,而不是技术使用的低级特征处理原始数据;该技术很容易扩展到不同模态,因为它适用于潜在的表示; 通过仅要求共享预先提取的特征,对原始原始数据的可共享性和可用性的担忧较少; 执行增强所需的计算资源较少,由于从原始数据中提取特征可以离线执行。

假设v1v_{1}v1​和v2v_{2}v2​是两个视频,展示了用自来水冲洗叉子时不同的人。为了描述这一行为,可以使用“清洁”、“洗涤”或“漂洗”等动词,而叉子也可以指向更一般的(“餐具”或“银器”)或更具体的术语(“三尖叉”或“不锈钢叉”)。所有这些字幕都有相似的语义,只有很小的变化,这些变化可以通过从深度神经网络中自动提取的高级特征来捕获。因此,这些特征可以被重用和混合,以获得与原始字幕具有相似语义的字幕的新表示。同样,可以将v1v_{1}v1​和v2v_{2}v2​视为可互换的,甚至更有趣的是,可能是可混合的。

3.1 Generating a new clip from same-class samples interpolation

首先,定义了两个选择标准,ϕV\phi_{V}ϕV​和ϕN\phi_{N}ϕN​,它们标识与执行的操作或与其发生交互的对象相关的兼容视频。这意味着,如果

MM2022 | 在特征空间中的多模态数据增强方法相关推荐

  1. NLP 中的通用数据增强方法及针对 NER 的变种

    本文结合 A Visual Survey of Data Augmentation in NLP 和最新的综述论文 A Survey of Data Augmentation Approaches f ...

  2. AutoAugment中16种数据增强方法可视化直观展示

    在AutoAugment: Learning Augmentation Strategies from Data这篇论文中,作者提到使用强化学习的方式训练Controller RNN来学习良好的数据增 ...

  3. yolov4中的mosaic数据增强

    文章详细讲解yolov4中的mosaic数据增强方法以及代码细节,如有错误,希望指正. 参考代码链接:https://github.com/bubbliiiing/yolov4-keras 1.下述代 ...

  4. 最新综述:用于文本分类的数据增强方法

    ©PaperWeekly 原创 · 作者 | 王馨月 学校 | 四川大学本科生 研究方向 | 自然语言处理 概要 数据增强,即通过转换为机器学习人工创建训练数据,是跨机器学习学科广泛研究的研究领域.它 ...

  5. mosaic数据增强_YoloV4当中的Mosaic数据增强方法(附代码详细讲解)

    上一期中讲解了图像分类和目标检测中的数据增强的区别和联系,这期讲解数据增强的进阶版- yolov4中的Mosaic数据增强方法以及CutMix. 前言 Yolov4的mosaic数据增强参考了CutM ...

  6. YoloV4当中的Mosaic数据增强方法(附代码讲解)

    上一期中讲解了图像分类和目标检测中的数据增强的区别和联系,这期讲解数据增强的进阶版- yolov4中的Mosaic数据增强方法以及CutMix. 前言 Yolov4的mosaic数据增强参考了CutM ...

  7. NLP中的数据增强方法综述

    论文链接:A Survey of Data Augmentation Approaches for NLP 摘要 由于越来越多的研究在低资源领域.新任务和需要大量训练数据的大规模神经网络中,NLP中的 ...

  8. 盘点深度学习中的各种数据增强技巧

    1 什么是数据增强? 数据增强也叫数据扩增,意思是在不实质性的增加数据的情况下,让有限的数据产生等价于更多数据的价值. 比如上图,第1列是原图,后面3列是对第1列作一些随机的裁剪.旋转操作得来. 每张 ...

  9. 【技术综述】深度学习中的数据增强方法都有哪些?

    很多实际的项目,我们都难以有充足的数据来完成任务,要保证完美的完成任务,有两件事情需要做好:(1)寻找更多的数据.(2)充分利用已有的数据进行数据增强,今天就来说说数据增强. 作者 | 言有三 编辑 ...

最新文章

  1. 我用Python爬取英雄联盟的皮肤,隔壁家的小弟弟都馋哭了
  2. Source Insight 格式化
  3. php MySQL快速入门_PHP 连接 MySQL
  4. java帐篷_Java多线程之 Park和Unpark(十四)
  5. 数据结构基础(18) --哈希表的设计与实现
  6. 小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法...
  7. 程序员必读的10本书籍
  8. 计算机课flash课件,初识flash动画教学课件
  9. Spring Boot - Mybatis 缓存
  10. ModelState.IsValid 一直是 false的解决办法
  11. 微信小程序 会议室课堂考勤签到助手 源码
  12. 设计模式在游戏开发中的应用之观察者模式
  13. 电脑哪个服务器可以玩无限连击,无尽之剑3手把手教你无限连击攻略
  14. 英语语法最终珍藏版笔记-11分词
  15. cesium中测距测面
  16. speedtree中文对照ppt_SpeedTree树木建模入门知识整理
  17. SMART Modular世迈科技推出首款XMM CXL内存模块
  18. 【Selenium】控制当前已经打开的 chrome浏览器窗口(高级版)
  19. 轴向柱塞泵体加工生产线专机及主要设备多头钻床及攻丝机床液压系统设计(论文 CAD图纸 液压系统图 工序卡)
  20. 惯量比多少合适_伺服电机负载惯量比的合理取值汇总

热门文章

  1. 电脑任务栏网络图标或其它图标消失怎么办
  2. 记录一个常用函数fetchall()的使用过程
  3. 素描零基础知道啥是三大面跟五调子…
  4. 路由器mw320虚拟服务器,水星MW320R路由器的桥接设置步骤
  5. 那些蓝牙耳机连接稳定性好?稳定性超好的蓝牙耳机推荐
  6. sqlsever数据库用户管理
  7. android 多线程实现方式、并发与同步学习总结
  8. sudo解决一切权限不够问题,linux无线网卡RTL88x2BU驱动安装记录坑
  9. 内核中的死锁问题--当UHCI遇上OHCI .
  10. centos7 升级 gcc 版本