关注公众号，发现CV技术之美

本文分享论文『Recurrent Video Restoration Transformer with Guided Deformable Attention』，是 Jingyun 大佬继SwinIR，VRT之后的又一篇力作，在Transformer结构中套用了循环架构（笔者最近也在research这个点，奈何大佬太猛了）并从帧级对齐扩展到片段对齐。RVRT在VID4上超过了VRT，在REDS4上超过了Basicvsr++！

详细信息如下：

作者单位：苏黎世联邦理工、Meta、维尔茨堡大学
论文链接：https://arxiv.org/pdf/2206.02146.pdf
项目链接：https://github.com/JingyunLiang/RVRT

看点

现有的视频恢复方法主要有两种：

并行恢复所有帧，它具有时间信息融合的优势，但是模型尺寸大，内存消耗大
循环逐帧恢复，它跨帧共享参数所以模型尺寸较小，但是缺乏长期建模能力和并行性

本文提出循环视频恢复transformer（RVRT）来结合这上述优点，它在全局循环框架内并行的处理局部相邻帧从而在模型大小和效率之间实现良好的权衡，主要的贡献如下：

RVRT将视频分成多个片段，利用先前的片段特征来估计后续的片段特征。通过减小视频序列长度并且以更大的隐藏状态传递信息，缓解了循环网络中的信息丢失和噪声放大，还可以使模型部分并行化。
使用引导变形注意（GDA）从整个推断片段中预测多个相关位置，然后通过注意机制聚合它们的特征来进行片段间对齐。
在超分去噪去模糊的多基准数据集上实现了SOTA。

方法

Overview

框架如下图所示，模型由三部分组成：浅层特征提取，循环特征细化和帧重建。浅层特征提取使用卷积层和多个SwinIR中的RSTB块对低质视频LQ进行特征提取，然后使用循环特征细化模块进行时间建模，并使用引导变形注意进行视频对齐，最后馈入多个RSTB块生成最终特征并通过pixelShuffle进行HQ重建。

循环特征细化

本文堆叠了L个循环特征细化模块，通过利用不同帧之间的时间相关性来细化视频特征。给定第层视频特征，首先将其分成个片段特征，每个片段特征包含N个相邻帧特征

402 Payment Required

。对齐的片段特征被计算为：

其中为光流，当前片段特征被计算为：

其中是浅层特征提取的输出，RFR(·)为循环特征细化模块，如右图，由一个用于特征融合的卷积层和用于特征细化的几个RSTB改进的MRSTB组成。MRSTB将原来的二维h × w注意窗口升级到三维 N × h × w，这使片段中的每一帧都能同时关注自身和其他帧来实现隐式特征聚合。此外，对视频序列进行反转以获得后向的信息。

引导变形注意

与之前的帧级对齐不同，GDA需要对齐相邻相关但未对齐的视频片段，如下图所示。令表示由第t-1个片段中的第帧到第t片段中第n帧的帧对齐特征。受Basicvsr的启发，首先使用光流获得预对齐特征，之后偏移（小写o）被计算为：

其中采CNN由多个卷积层和ReLU组成，每帧的光流拥有M个偏移，光流随后被更新为：

402 Payment Required

为了简单起见，本文将K、Q、V定义如下:

402 Payment Required

首先对特征进行投影，然后进行采样以减少冗余计算。然后对齐特征被一个注意机制计算：

402 Payment Required

其中是采样因子。最后，由于上述操作仅在空间上聚合信息，为此本文添加了一个MLP（两个全连接的和和一个GELU）以残差的形式来对通道进行交互。此外，可以将通道分成多个可变形组，以并行操作。可变形组进一步可以划分为多个注意头，并对不同注意头分别进行注意操作。

值得注意的是，可变形卷积使用学习到的权值进行特征聚合，这可以看作是GDA的一种特例，即对不同的位置使用不同的投影矩阵，然后对得到的特征进行平均。其参数数和计算复杂度分别为和。相比之下，GDA对所有位置使用相同的投影矩阵，但生成动态权值来聚合它们。其参数数和计算复杂度为和，在选择合适的M和R时与可变形卷积相似。

实验

消融实验

不同视频对齐技术的消融研究

不同GDA组件的消融研究

定量评估

在BD Vid4 上达到了29.54dB，在BI REDS4 上达到了32.75dB

参数量，时间等均优于VRT，与CNN架构还是没得比

去模糊和去噪

定性评估

细节肉眼可见的提升

END

欢迎加入「视频恢复」交流群

Recurrent+Transformer 视频恢复领域的‘德艺双馨’相关推荐

Allen AI提出MERLOT，视频理解领域新SOTA！
文 | Yimin_饭煲 2021年,多模态领域大概是人工智能研究者们关注者最多的一个领域了.随着各种模态数据集的增长和算力的发展,研究者们开始不断地尝试在一个模型中融合来自各个模态的信息. 而在多模 ...
ETH联合Meta和鲁汶大学提出视频恢复算法VRT，在视频超分辨率、去模糊和去噪性能达到SOTA...
关注公众号,发现CV技术之美 ✎ 编者言该论文为将Swin Transformer应用于单图超分中的SwinIR的视频扩展版本,在视频复原的各领域中都有很大的提升,本文将从视频超分方向来解读V ...
Transformer在计算机视觉领域走到哪了？
本文转载自微软研究院AI头条编者按:Transformer 模型在自然语言处理(NLP)领域已然成为一个新范式,如今越来越多的研究在尝试将 Transformer 模型强大的建模能力应用到计算机视觉 ...
Transformer 在计算机视觉领域疯狂“内卷”
继『Transformer 杀疯了,图像去雨.人脸幻构.风格迁移.语义分割等通通上分』之后,Transformer 在计算机视觉领域继续疯狂"内卷". 01 ...
刷新SOTA ! 视频恢复的重中之重：时间对齐！
关注公众号,发现CV技术之美作者单位:港中文.思谋科技论文链接:https://arxiv.org/pdf/2111.15288 代码链接:https://github.com/redrock30 ...
Block Recurrent Transformer：结合了LSTM和Transformer优点的强大模型
转载:Deephub Imba 在以前的文章中,我们讨论过Transformer并不适合时间序列预测任务.为了解决这个问题Google创建了Hybrid Transformer-LSTM模型,该模型可 ...
TimeSformer：抛弃CNN的Transformer视频理解框架
Transformers开始在视频识别领域的"猪突猛进",各种改进和魔改层出不穷.由此作者将开启Video Transformer系列的讲解,本篇主要介绍了FBAI团队的TimeS ...
易佳佳能MOV视频恢复软件
有许多人都在使用佳能相机,并其所出产的MOV视频也被广泛应用到各个领域,但有时候视频丢失了该怎么办呢?那么就需要乐易佳佳能MOV视频恢复软件,这是一款超好用,且功能性质强大的专业佳能MOV视频恢复工具 ...
替代离线RL？Transformer进军决策领域，「序列建模」成关键
机器之心报道机器之心编辑部 Transformer 开始进军决策领域了,它能否替代离线强化学习呢?近日,UC 伯克利.FAIR 和谷歌大脑的研究者提出了一种通过序列建模进行强化学习的 Transfo ...

Recurrent+Transformer 视频恢复领域的‘德艺双馨’

Overview

循环特征细化

402 Payment Required

402 Payment Required

402 Payment Required

402 Payment Required

消融实验

定量评估

定性评估

Recurrent+Transformer 视频恢复领域的‘德艺双馨’相关推荐

最新文章

热门文章