浙大蔡登团队提出CARL：基于序列对比学习的长视频逐帧动作表征

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

浙大蔡登团队携手微软亚洲研究院，提出了一个新的对比动作表征学习（CARL）框架，以自监督的方式学习逐帧动作表征，尤其是针对长视频；它考虑了时空上下文来提取逐帧表征，是一种基于Transformer的简单而高效的视频编码器。

他们提出了一种新的序列对比损失（SCL），应用于通过一系列时空数据增强获得的两个相关的视图。在FineGym、PennAction和Pouring数据集上的实验表明，该方法在下游细粒度动作分类方面大大优于已有的最新技术。值得一提的是，虽然没有用成对视频进行训练，但该方法在视频对齐和细粒度帧检索任务方面也有着出色的表现。

编译 | 龚倩编辑 | 陈彩娴

转载自：AI科技评论

引言

论文链接：https://arxiv.org/pdf/2203.14957.pdf

在过去几年中，基于深度学习的视频理解在视频分类任务上取得了巨大成功。I3D和SlowFast等网络通常将短视频片段（32帧或64帧）作为输入，提取全局表征来预测动作类别。不过，许多实际应用，例如手语翻译、机器人模仿学习、动作对齐和相位分类都要求算法能够对具有数百帧的长视频进行建模，并提取逐帧表征，而不是全局特征。

(a) 在FineGym 数据集上的细粒度帧检索

(b) 在Pouring 数据集上的相位边界检测

（c）在PennAction 数据集上的时间视频对齐

以前的方法尝试通过监督学习来学习逐帧表征，其中子动作或相位边界被注释。然而，在大规模数据集上手动标记每个帧和精确的动作边界非常耗时，甚至不切实际，从而妨碍了基于全监督学习训练的模型在现实场景中的推广。为了减少对标记数据的依赖性，TCC、LAV和GTA等方法通过使用循环一致性损失或软动态时间扭曲来进行弱监督学习。所有这些方法都依赖于视频水平的注释，并且是用表现相同动作的成对视频进行训练的。该前提使得在没有可用标签的更一般的视频数据集中无法应用这些方法。

本研究的目的是以自监督方式学习长视频中具有时空上下文信息的逐帧表征。受对比表征学习最新进展的启发，我们提出了一个新框架——对比动作表征学习（CARL）。我们假设在训练期间没有可用的标签，并且训练和测试集中的视频都很长（数百帧）。此外，我们不依赖具有相同动作的成对视频进行训练，从而能够以更低的成本扩大训练集规模。

为数百帧的长视频建模是一项挑战。直接使用为短视频片段分类而设计的现成骨架也不太现实，因为我们的任务是提取长视频的逐帧表征。在本研究中，我们提出了一种简单而高效的视频编码器，它由一个对每帧的空间信息进行编码的2D网络和一个对时间交互进行建模的Transformer编码器组成。然后使用逐帧特征进行表征学习。

最近，SimCLR使用实例鉴别作为网络前置任务，并引入了一个名为NT-Xent的对比损失，该对比损失最大化相同数据的两个增强视图之间的一致性。在他们的实现中，除正面参照样本外的所有实例都被判定为负样本。与图像数据不同的是，视频提供了更丰富的实例（每一帧都被视为一个实例），相邻帧具有很高的语义相似性。直接将这些帧视为负样本可能会损害学习过程。为了避免这个问题，我们提出了一种新的序列对比损失框架（SCL），它通过最小化两个增强视频视图的序列相似性与先验高斯分布之间的KL散度来优化嵌入空间。

综上，本文的主要贡献总结如下：

我们提出了一个名为对比动作表征学习（CARL）的新架构，以自监督方式学习长视频中具有时空上下文信息的逐帧动作表征。我们的方法不依赖于任何数据注释，也不对数据集进行假设。

我们引入了一种基于Transformer的网络来对长视频进行高效编码，和一种新的序列对比损耗（SCL）用于表征学习。同时，我们设计了一系列时空数据增强，以增加训练数据的多样性。
我们的框架在不同数据集的多个任务上大大优于目前为止最先进的方法。例如，在FineGym数据集上的线性评估协议下，我们的框架实现了41.75%的准确率，比现有的最佳方法GTA高出+13.94%。在Penn Action和Kendall's Tau数据集上，我们的方法分别实现了91.67%和99.1%的细粒度分类，以及前五个细粒度帧检索精度的90.58%，这些结果都优于现有的最佳方法。

方法

2.1. 概述

图2中我们对CARL架构进行了概述。首先通过一系列时空数据增强为输入视频构建两个增强视图。此步骤称为数据预处理。然后，我们将两个增强视图输入到帧级视频编码器（FVE）中，以提取密集表征。遵循SimCLR，FVE附加了一个小型投影网络，它是一个两层的MLP，用于获得潜在嵌入。由于时间上相邻的帧高度相关，我们假设两个视图之间的相似性分布遵循先验高斯分布。基于此，我们提出了一种新的序列对比损失（SCL）来优化嵌入空间中的逐帧表征。

图2 架构概述（CARL）。通过一系列时空数据增强，从训练视频构建两个增强视图。帧级视频编码器（FVE）和投影头通过最小化两个视图之间的序列对比损失（SCL）进行优化。

2.2. 视图构建

首先介绍本方法的视图构建步骤，如图2中的"数据预处理"部分所示。在自监督学习中，数据增强对于避免平凡解至关重要。以前针对图像数据的方法只需要空间增强，与此不同，我们引入了一系列时空数据增强，以进一步增加视频的多样性。

具体而言，对于一个具有S帧的训练视频V，我们的目标是通过一系列时空数据增强，独立地构造两个T帧的增强视频。对于时间数据增强，我们首先对V执行随机时间裁剪，以生成两个长度为[T，αT]帧的随机裁剪片段，其中α是控制最大裁剪长度的超参数。在此过程中，我们保证两个剪辑片段之间至少存在β%的重叠帧。然后对每个视频序列随机采样T帧，获得视频序列V1和V2，默认设置T=240。对于小于T帧的视频，在裁减之前会对空帧进行填充。最后，分别在V1和V2上应用几种时间一致的空间数据增强，包括随机调整大小和裁剪、水平翻转、随机颜色失真和随机高斯模糊。

图3 帧级视频编码器（FVE）的结构。输入T帧长视频，输出逐帧表征。ResNet-50在ImageNet上进行了预训练。我们冻结了ResNet-50的前四个残差块，只微调最后一个块。

2.3. 帧级视频编码器

直接应用视频分类架构对数百帧的长视频序列进行建模，因其计算量巨大而无法实现。TCC提出了一种视频编码器，它将2D ResNet和3D卷积相结合，以生成逐帧特征。然而叠加太多3D卷积层会导致计算成本过高。这导致这种类型的设计可能只有有限的感受野来捕捉时间上下文。最近，Transformers在计算机视觉方面取得了巨大的进步。Transformers利用注意机制解决序列到序列任务，同时轻松处理远距离依赖关系。在本网络实现中，我们采用了Transformer编码器来建模时间上下文。

图3展示了我们的帧级视频编码器（FVE）。为了在表征性能和推理速度之间达到平衡，我们首先使用一个2D网络（例如ResNet-50）沿时间维度提取长度为T×224×224×3的RGB视频序列的空间特征。然后用一个转换块（该转换块由两个具有批量归一化ReLU的全连接层组成），将空间特征投影到大小为T×256的中间嵌入。遵循常规做法，我们在中间嵌入的顶部添加了正弦-余弦位置编码，以编码顺序信息。接下来，将编码后的嵌入输入到3层Transformer编码器中，以对时间上下文进行建模。最后，采用一个线性层来获取最终的逐帧表征H。

图4 序列对比损失图解。以V1中的一个视频帧损失计算过程为例。我们首先计算时间戳距离的先验高斯分布。然后计算该帧的嵌入与V2中所有视频帧的嵌入之间的嵌入相似性分布，最后将嵌入空间中两个分布的KL散度最小化。

2D 的ResNet-50网络在ImageNet上进行了预训练。考虑到计算预算有限，我们冻结了前四个残差块，因为它们已经通过预训练学习了良好的低级视觉表征。这种简单的设计确保本网络可以在超过500帧的视频上进行训练和测试。VTN采用了一种类似的基于Transformer的混合网络来执行视频分类任务。他们使用[CLS]令牌来生成全局特征，而我们的网络是通过考虑时空上下文来提取帧表征。此外，我们的网络尝试了对更长的视频序列进行建模。

2.4. 序列对比损失

SimCLR通过最大化同一实例的增强视图之间的一致性，引入了一个叫做NTXent的对比损失。

与图像的自监督学习不同，视频提供了丰富的序列信息，这是一个重要的监督信号。对于典型的实例判别，除了正面参考样本之外的所有实例都被判定为负样本。然而，参考帧附近的帧高度相关。直接将这些帧视为负样本可能会损害学习过程，因此我们应该尽量避免这个问题。为了优化逐帧表征，我们提出了一种新的序列对比损失（SCL），它通过最小化两个增强视图的嵌入相似性和先验高斯分布之间的KL散度来实现，如图4所示。

具体来说，与SimCLR类似，我们使用一个由两层MLP组成的小型投影网络g，由FVE编码的帧表征H由该投影网络投影到潜在嵌入Z。考虑到两个视频序列V1和V2对应的嵌入向量Z1和Z2中每个潜在嵌入，在时间上相邻的帧比相距更远的帧相关性更高，我们假设每个视频帧的潜在嵌入和另一个视频序列的潜在向量之间的嵌入相似性遵循时间戳距离的先验高斯分布。基于这个假设，我们使用KL散度优化嵌入空间。具体来说，对于V1，我们首先计算 V1中每个帧的损失，然后计算V1所有帧损失的平均值即为V1的总损失，V2同理，序列对比损失为两个视频序列V1和V2总损失的和。值得注意的是，本方法中的损失并不依赖于V1和V2之间的帧到帧的对应关系，这增加了时空数据增强的多样性。

实验结果

我们使用三个视频数据集，即PennAction、FineGym和Pouring来评估本方法的性能。我们在三个数据集上将本方法与迄今为止最先进的技术进行了比较。

PennAction数据集上的结果

如表2所示，我们报告的结果低于平均精度@K指标（Average Precision@K metric），该指标衡量细粒度帧检索的性能。出乎意料的是，尽管我们的模型没有经过成对数据的训练，但它仍然可以从其他视频中成功地找到具有相似语义的帧。对于所有的AP@K，我们的方法优于以前的方法至少11%。

表2 在PennAction数据集上的细粒度帧检索结果。

FineGym数据集上的结果

表3总结了FineGym99和FineGym288上细粒度动作分类的实验结果。结果显示我们的方法优于其他自监督和弱监督方法。我们的方法在FineGym99和FineGym288上的性能比之前最先进的方法GTA分别高出+13.94%和+11.07%。如TCC、TW和GTA等弱监督方法假设训练集中的两个视频之间存在最佳对齐。然而，对于FineGym数据集，即使在描述同一动作的两个视频中，子动作的设置和顺序也可能不同。因此，这些方法找到的对齐可能不正确，因而会阻碍学习。我们的方法在两个指标上有很大的提高，从而验证了我们框架的有效性。

表3 以细粒度动作分类为评估指标，在FineGym上我们的方法与最先进的方法进行比较。

Pouring数据集上的结果

如表4所示，我们的方法在一个相对较小的数据集Pouring上性能也是最好的。这些结果进一步证明了我们的方法具有很强的泛化能力。

表4 在Pouring数据集上与最先进方法的比较

结论

在本文中，我们提出了一个对比动作表征学习（CARL）的新框架，以自监督的方式学习逐帧动作表征，尤其是长视频。为了对数百帧的长视频进行建模，我们引入了一个简单而高效的网络，称为帧级视频编码器（FVE），该网络在训练过程中参考了时空上下文。

此外，我们还提出了一种新的用于逐帧表征学习的序列对比损失（SCL）。SCL通过最小化两个增强视图的序列相似性与先验高斯分布之间的KL散度来优化嵌入空间。我们在各种数据集和任务上的实验结果证明了该方法的有效性和通用性。

ICCV和CVPR 2021论文和代码下载

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：ICCV2021，即可下载ICCV 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer6666，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群▲扫码或加微信: CVer6666，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！▲扫码进群
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

浙大蔡登团队提出CARL：基于序列对比学习的长视频逐帧动作表征相关推荐

浙大三维视觉团队提出 Neural Body，单目RGB视频重建人体三维模型，无需预训练网络...
点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入! 今天,我们介绍一篇2021 CVPR的人体自由视角合成的论文:Neural Body: Implicit Neural Represen ...
【论文推荐】张笑钦团队 | 综述：基于深度学习的视觉跟踪方法进展
导读 IJAC特约稿件人眼可以比较轻松地在一段时间内持续定位特定目标,而在计算机视觉领域,这一任务便是高级计算机任务之一--"目标跟踪".但对计算机而言,在不同场景下实现目标跟踪 ...
CVPR2021-《T2VLAD》-浙大百度悉尼科技提出用局部全局对齐来进行视频文本检索！效果优于MMT！...
关注公众号,发现CV技术之美 ▊ 写在前面文本视频检索是一项具有挑战性的任务,其目的是基于自然语言描述搜索相关的视频内容.这个问题的关键是在联合嵌入空间中测量文本视频的相似性.然而,大多数现有的方法 ...
山东大学项目实训小组一——基于深度学习的AI视频剪辑器“易剪”
技术要点:图像处理计算机视觉深度学习多媒体前端一.项目研究背景: 随着短视频热潮的兴起,越来越多的人投入精力到了视频剪辑视频制作之中.然而利用现有的视频剪辑工具,剪辑一段视频是非常麻烦的,尤其 ...
浙大三维视觉团队提出Animatable NeRF，从RGB视频中重建可驱动人体模型 (ICCV'21)
关注公众号,发现CV技术之美本文经作者授权转载自知乎: https://zhuanlan.zhihu.com/p/421072327 我们介绍一篇2021 ICCV的人体重建论文:Animatabl ...
浙大三维视觉团队提出ENeRF：首次实现任意动态场景的实时照片级渲染 | SIGGRAPH Asia 2022...
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达点击进入-> CV 微信技术交流群作者:林浩通 | 已授权转载(源:知乎)编辑:CVer https ...
目标检测，FFmpeg中第一个基于深度学习模型的视频分析功能
2021年4月,终于把目标检测(object detection)加到FFmpeg upstream了,有maintainer身份加持,还是交互了将近100封邮件,花了两个多月才完成upstream, ...
基于深度学习算法实现视频人脸自动打码
前言 1.在当下的环境上,短视频已是生活的常态,但这是很容易就侵犯别人肖像权,好多视频都会在后期给不相关的人打上码,这里是基于yolov5的人脸检测实现人脸自动打码功能. 2.开发环境是win10,显 ...
专家点评Nat Mach Intell | 刘琦团队开发基于元学习的AI模型进行抗原-TCR亲和力识别及肿瘤新生抗原免疫原性预测...
T细胞受体(T-cell receptor, TCR)是获得性免疫过程中的关键分子.TCR经过特定的基因重组和进化筛选,具备高度的多样性及特异性.MHC-多肽复合物与TCR亲和力的计算识别(pMHC- ...

浙大蔡登团队提出CARL：基于序列对比学习的长视频逐帧动作表征

浙大蔡登团队提出CARL：基于序列对比学习的长视频逐帧动作表征相关推荐

最新文章

热门文章