ECCV 2022 | Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval
ECCV 2022 | Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval# ECCV 2022 | LAFF
- 代码:https://github.com/ruc-aimc-lab/laff
- 参考:https://mp.weixin.qq.com/s/DYr5ErhRMpB1ttyQHp5Nxw
主要内容
本文主要讨论了文本检索视频任务中的特征融合问题。提出了一种基于轻量但是有效的特征融合模块LAFF构建的跨模态双端融合架构。
这一领域中过往的方法中,特征融合主要有这些:
- 早期融合:典型的是特征向量的拼接。随着特征数量的增加,向量拼接方法面临着维度灾难。
- 后期融合:通过并行学习多个特征特定的公共空间,通过平均、经验性的加权或者是MoE集成策略等来组合,从而获得最终的相似性。为每个特征构造公共空间的策略则缺乏特征间的交互。
另外,之前的工作中都只重点关注视频端或者是文本端。
除了这些工作之外,当前MHSA展现出了良好的效果。这类检索任务中,视频特征提取自2DCNN和3DCNN,这也更适合从不同方面描述视频内容,因此作者们推测优化它们的组合,相比于建模他们之间的相似性而言是要更加适合的。而基于特征之间的相似性的MHSA,会趋向于出现分组效应,即彼此相关的特征会被更多的关注,从而导致相关但是相对要若的特征将会被过度强调。因此,尽管 MHSA 在不同环境中的流行率很高,但作者认为 其对于当前任务来说不是最佳的。
本文的重点在于开发了一种双端并重的框架,即视频端和文本短都设置了多种特征的集成,同时设计了一种简单有效的特征融合策略,由于也是特征级别的融合,所以可以看做是一种早期融合策略。并且考虑到视频和文本内容的高度复杂性,作者们也通过多头策略并行集成了多个LAFF到模型中,从而构建了多个隐式的公共空间,从这一角度而言提出的方法也具有了后期融合的形式,所以本文的方法总体来看是一种混合形式的融合范式。
基于LAFF的双模态相似性计算
- 对于每个LAFF而言,都会利用所处模态中的所有特征。输入的k个不同的1xd特征经过线性层得到相同的维度。由于 LAFF 中非线性激活的输出是计算余弦相似度,在这项工作中使用 tanh。之后拼接得到kxd。
- 通过线性层将d降维到1,并在k上计算softmax,从而获得这k个特征各自的独立权重后加和得到输出。
- 双模态之间h个LAFF对的输出计算相似性,之后通过对h个基于余弦形式的相似度求和后获得最终相似性,用于实际的检索任务。所有LAFF嵌入的维度之和是固定的从而确保了训练参数的数量的恒定,因此也不能算是一种集成策略。
对于LAFF而言,其不仅可以用于集成来自不同视频编码器的最终特征,还可以用于集成单个编码器提取的多级特征以用于后续视频级别的集成。
实验结果
ECCV 2022 | Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval相关推荐
- Attentional Feature Fusion 注意力特征融合
Attentional Feature Fusion 注意力特征融合 最近看到一篇比较不错的特征融合方法,基于注意力机制的 AAF ,与此前的 SENet .SKNet 等很相似,但 AFF 性能优于 ...
- 重磅!腾讯优图29篇论文入选顶会ECCV 2022
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:腾讯优图实验室 近日,欧洲计算机视觉国际会议ECCV 20 ...
- ECCV 2022|计算机视觉中的长尾分布问题还值得做吗?
点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心技术交流群 后台回复[ECCV2022]获取ECCV2022所有自动驾驶方向论文! 后台 ...
- ECCV 2022 | 适用于分类,检测,分割的生成式知识蒸馏开源
作者丨美索不达米亚平原@知乎 (已授权) 来源丨https://zhuanlan.zhihu.com/p/539496128 编辑丨极市平台 导读 本文主要介绍ECCV 2022关于知识蒸馏的工作: ...
- Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion
Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion 标题 Multimodal E ...
- ECCV 2022 | MGD:适用于分类、检测和分割的生成式知识蒸馏
©作者 | 美索不达米亚平原 单位 | 清华大学.字节跳动 本文介绍我们ECCV 2022关于知识蒸馏的工作: Masked Generative Distillation,方法适用于分类,检测与分割 ...
- ECCV 2022 | 清华字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:美索不达米亚平原 | 已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhi ...
- #今日论文推荐#ECCV 2022 | 清华字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏
#今日论文推荐#ECCV 2022 | 清华&字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏 知识蒸馏主要可以分为logit蒸馏和feature蒸馏.其中feature蒸馏具有更好的拓 ...
- ECCV 2022 | 腾讯优图29篇论文入选,含人脸安全、图像分割、目标检测等多个研究方向...
来源:腾讯优图 近日,欧洲计算机视觉国际会议ECCV 2022(European Conference on Computer Vision)发布了论文录用结果.本届ECCV 2022论文总投稿数超过 ...
最新文章
- JS重写提示框(confirm)
- python列表怎么写文件_python中以字典为元素的列表怎么写入文本文件
- // synopsys_translate_off,parallel_case 和 full_case
- SpringBoot项目在IntelliJ IDEA中实现热部署 1
- AFAB-资产折旧时出错 在上一年结算之后您只能记帐到新的一年
- Java基础 JSP九大内置对象
- QT的QStatusTipEvent类的使用
- 项目添加服务器上数据库正常,添加本地的数据库出现问题(The user specified as a definer ('root'@'%') does not exist)...
- flex 添加右键链接
- 关于 Cisco SCE 的介绍
- 特斯拉又有新游戏可以玩了 网友:行车打游戏,亲人两行泪
- 5个最佳的Android测试框架(带示例)
- 入手STM32单片机的知识点总结
- android手机fingerprint,Fingerprint HIDL
- 抗战史上知名的戚家刀PK日本真三武士刀刀型
- 贪吃蛇项目Java实现
- AT24C04 eeprom读写测试
- 运行无法打开计算机策略,win10系统电脑本地组策略打不开无法运行的技巧
- 毕业设计 Arduino智能灌溉系统 - 嵌入式 单片机 物联网
- 查看zookeeper状态报错`Error contacting service. It is propably not running`