ECCV 2022 | Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval# ECCV 2022 | LAFF

代码：https://github.com/ruc-aimc-lab/laff
参考：https://mp.weixin.qq.com/s/DYr5ErhRMpB1ttyQHp5Nxw

主要内容

本文主要讨论了文本检索视频任务中的特征融合问题。提出了一种基于轻量但是有效的特征融合模块LAFF构建的跨模态双端融合架构。

这一领域中过往的方法中，特征融合主要有这些：

早期融合：典型的是特征向量的拼接。随着特征数量的增加，向量拼接方法面临着维度灾难。
后期融合：通过并行学习多个特征特定的公共空间，通过平均、经验性的加权或者是MoE集成策略等来组合，从而获得最终的相似性。为每个特征构造公共空间的策略则缺乏特征间的交互。

另外，之前的工作中都只重点关注视频端或者是文本端。

除了这些工作之外，当前MHSA展现出了良好的效果。这类检索任务中，视频特征提取自2DCNN和3DCNN，这也更适合从不同方面描述视频内容，因此作者们推测优化它们的组合，相比于建模他们之间的相似性而言是要更加适合的。而基于特征之间的相似性的MHSA，会趋向于出现分组效应，即彼此相关的特征会被更多的关注，从而导致相关但是相对要若的特征将会被过度强调。因此，尽管 MHSA 在不同环境中的流行率很高，但作者认为其对于当前任务来说不是最佳的。

本文的重点在于开发了一种双端并重的框架，即视频端和文本短都设置了多种特征的集成，同时设计了一种简单有效的特征融合策略，由于也是特征级别的融合，所以可以看做是一种早期融合策略。并且考虑到视频和文本内容的高度复杂性，作者们也通过多头策略并行集成了多个LAFF到模型中，从而构建了多个隐式的公共空间，从这一角度而言提出的方法也具有了后期融合的形式，所以本文的方法总体来看是一种混合形式的融合范式。

基于LAFF的双模态相似性计算

对于每个LAFF而言，都会利用所处模态中的所有特征。输入的k个不同的1xd特征经过线性层得到相同的维度。由于 LAFF 中非线性激活的输出是计算余弦相似度，在这项工作中使用 tanh。之后拼接得到kxd。
通过线性层将d降维到1，并在k上计算softmax，从而获得这k个特征各自的独立权重后加和得到输出。
双模态之间h个LAFF对的输出计算相似性，之后通过对h个基于余弦形式的相似度求和后获得最终相似性，用于实际的检索任务。所有LAFF嵌入的维度之和是固定的从而确保了训练参数的数量的恒定，因此也不能算是一种集成策略。

对于LAFF而言，其不仅可以用于集成来自不同视频编码器的最终特征，还可以用于集成单个编码器提取的多级特征以用于后续视频级别的集成。

实验结果

ECCV 2022 | Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval相关推荐

Attentional Feature Fusion 注意力特征融合
Attentional Feature Fusion 注意力特征融合最近看到一篇比较不错的特征融合方法,基于注意力机制的 AAF ,与此前的 SENet .SKNet 等很相似,但 AFF 性能优于 ...
重磅！腾讯优图29篇论文入选顶会ECCV 2022
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达点击进入-> CV 微信技术交流群转载自:腾讯优图实验室近日,欧洲计算机视觉国际会议ECCV 20 ...
ECCV 2022｜计算机视觉中的长尾分布问题还值得做吗？
点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取点击进入→自动驾驶之心技术交流群后台回复[ECCV2022]获取ECCV2022所有自动驾驶方向论文! 后台 ...
ECCV 2022 | 适用于分类，检测，分割的生成式知识蒸馏开源
作者丨美索不达米亚平原@知乎 (已授权) 来源丨https://zhuanlan.zhihu.com/p/539496128 编辑丨极市平台导读本文主要介绍ECCV 2022关于知识蒸馏的工作: ...
Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion
Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion 标题 Multimodal E ...
ECCV 2022 | MGD：适用于分类、检测和分割的生成式知识蒸馏
©作者 | 美索不达米亚平原单位 | 清华大学.字节跳动本文介绍我们ECCV 2022关于知识蒸馏的工作: Masked Generative Distillation,方法适用于分类,检测与分割 ...
ECCV 2022 | 清华字节提出MGD：适用于分类/检测/分割的生成式知识蒸馏
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达作者:美索不达米亚平原 | 已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhi ...
#今日论文推荐#ECCV 2022 | 清华字节提出MGD：适用于分类/检测/分割的生成式知识蒸馏
#今日论文推荐#ECCV 2022 | 清华&字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏知识蒸馏主要可以分为logit蒸馏和feature蒸馏.其中feature蒸馏具有更好的拓 ...
ECCV 2022 | 腾讯优图29篇论文入选，含人脸安全、图像分割、目标检测等多个研究方向...
来源:腾讯优图近日,欧洲计算机视觉国际会议ECCV 2022(European Conference on Computer Vision)发布了论文录用结果.本届ECCV 2022论文总投稿数超过 ...

ECCV 2022 | Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval

ECCV 2022 | Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval# ECCV 2022 | LAFF

主要内容

基于LAFF的双模态相似性计算

实验结果

ECCV 2022 | Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval相关推荐

最新文章

热门文章