作者单位:百度
论文链接:https://arxiv.org/pdf/2112.02828.pdf
代码链接:https://github.com/PaddlePaddle/PaddleGAN
编者言:本文将局部窗口方法与循环方法相结合,在REDS4数据集上超越了BasicVSR++实现了SOTA,代码已开源!

看点

VSR任务的关键是充分利用帧间的互补信息来进行重构。由于来自不同帧的图像具有不同的运动和场景,因此准确对齐多帧并有效融合不同帧一直是VSR任务的关键研究工作。为了利用相邻帧丰富的互补信息,本文提出一个多级VSR架构PP-MSVSR,它采用局部融合模块、辅助损耗和重对准模块逐步细化增强结果。具体来说,

  1. 为了加强特征传播中的跨帧特征融合,在阶段一设计了局部融合模块,在特征传播前进行局部特征融合
  2. 在阶段二引入了一个辅助损失,使传播模块获得的特征保留更多的连接到HR空间的信息
  3. 在三阶段三引入了一个重新对齐模块,以充分利用前一阶段的特征信息

方法

Overview

PP-MSVSR结构如下图所示,该网络结合了滑动窗口VSR和循环VSR的思想,并使用多阶段策略执行恢复任务。

网络首先从每个视频帧中提取特征,然后通过阶段一的局部融合模块进行相邻帧融合: f L F M i = F L M ( g i − 1 , g i , g i + 1 ) f_{L F M}^{i}=\mathcal{F L M}\left(g_{i-1}, g_{i}, g_{i+1}\right) fLFMi​=FLM(gi−1​,gi​,gi+1​)后续使用与BasicVSR++相同的结构来融合不同帧和局部合并特征的信息,然后二阶段在每个帧之间传播底层信息。另添加了一个辅助损失,使特征更接近HR空间。三阶段提出一个再对准模块(RAM),它集成了二阶段的偏移量和掩膜,以便于精确的运动补偿: f aligned  i + 1 = R A M ( f 2 i , f 2 i + 1 , o 2 i + 1 → i , m 2 i + 1 → i ) f_{\text {aligned }}^{i+1}=\mathcal{R} \mathcal{A M}\left(f_{2}^{i}, f_{2}^{i+1}, o_{2}^{i+1 \rightarrow i}, m_{2}^{i+1 \rightarrow i}\right) faligned i+1​=RAM(f2i​,f2i+1​,o2i+1→i​,m2i+1→i​)其中 o 2 i + 1 → i o_{2}^{i+1 \rightarrow i} o2i+1→i​和 m 2 i + 1 → i m_{2}^{i+1 \rightarrow i} m2i+1→i​为二阶段的偏移量和掩膜。对齐的特征依次进行融合、重构和上采样,获得SR。

局部融合模块

受滑动窗口思想的启发,本文在一阶段设计了一个局部融合模块LFM以加强特征传播中的跨帧特征融合。LFM的目的是让当前帧的特征首先融合其相邻帧的信息,然后将融合后的特征发送到传播模块,如下图所示。

整体架构为相邻帧可变形卷积然后通道叠加送入残差快进行特征提取。

辅助损失

在二阶段添加了一个辅助损失,使特征更接近HR空间,定义为: A u x L o s s = 1 N ∑ i = 0 N ∥ U p ( f stage  2 i ) − Y g t i ∥ 2 + ε A u x L o s s=\frac{1}{N} \sum_{i=0}^{N} \sqrt{\left\|U p\left(f_{\text {stage } 2}^{i}\right)-Y_{g t}^{i}\right\|^{2}+\varepsilon} AuxLoss=N1​i=0∑N​∥∥​Up(fstage 2i​)−Ygti​∥∥​2+ε ​其中 f stage  2 i f_{\text {stage } 2}^{i} fstage 2i​为二阶段传播后的特征, Y g t i Y_{g t}^{i} Ygti​为GT。

再对准模块

在使用双向递归神经网络的过程中,经常会有多个相同的对齐操作。为了充分利用先前对齐操作的结果,本文提出了一个再对准模块RAM,它可以利用先前对齐的参数并获得更好的对齐结果,如下图。

先前的掩模和偏移量用于预对齐特征: f ^ 2 i + 1 = D ( f 2 i + 1 , o 2 i + 1 → i , m 2 i + 1 → i ) \hat{f}_{2}^{i+1}=\mathcal{D}\left(f_{2}^{i+1}, o_{2}^{i+1 \rightarrow i}, m_{2}^{i+1 \rightarrow i}\right) f^​2i+1​=D(f2i+1​,o2i+1→i​,m2i+1→i​)其中 D \mathcal{D} D表示变形卷积,然后对预对齐特征与参考帧特征叠加进行卷积输出掩膜和偏移量: o ^ 3 i + 1 → i , m ^ 3 i + 1 → i = Conv ⁡ ( concat ⁡ ( f ^ 2 i + 1 , f 2 i ) ) \hat{o}_{3}^{i+1 \rightarrow i}, \hat{m}_{3}^{i+1 \rightarrow i}=\operatorname{Conv}\left(\operatorname{concat}\left(\hat{f}_{2}^{i+1}, f_{2}^{i}\right)\right) o^3i+1→i​,m^3i+1→i​=Conv(concat(f^​2i+1​,f2i​))然后将上述对应的参数相加进行对齐: f ^ aligned  i + 1 = D ( f 2 i + 1 , o 2 i + 1 → i + o ^ 3 i + 1 → i , m 2 i + 1 → i + m ^ 3 i + 1 → i ) \hat{f}_{\text {aligned }}^{i+1}=\mathcal{D}\left(f_{2}^{i+1}, o_{2}^{i+1 \rightarrow i}+\hat{o}_{3}^{i+1 \rightarrow i}, m_{2}^{i+1 \rightarrow i}+\hat{m}_{3}^{i+1 \rightarrow i}\right) f^​aligned i+1​=D(f2i+1​,o2i+1→i​+o^3i+1→i​,m2i+1→i​+m^3i+1→i​)然后合并对齐的特征以重建恢复的图像。

PP-MSVSR-L

本文还介绍了一个更大的VSR模型,称为PP-MSVSR-L。具体而言,考虑到BasicVSR++是目前VSR任务中最先进的方法,本文增加了特征通道、输入帧和PP-MSVSR模型的主干块和重建块,使新的模型的参数与BasicVSR++一致,从而得到我们的PP-MSVSR-L。实验结果表明,PP-MSVSR-L的性能优于BasicVSR++,达到了最先进的性能。

实验

消融实验

结构组件的消融实验

定量评估

PP-MSVSR的定量评估数据

PP-MSVSR-L的定量评估数据

不过值得一提的是,作者在这里缺少很多的数据对比,比如上图中BasicVSR和BasicVSR++的定量评估与下图中的FLOPs与运算时间对比。

定性评估

REDS4上的定性评估

刷新REDS4记录 | 多级视频超分:PP-MSVSR相关推荐

  1. 刷新视频超分新记录28.41dB!一种全局视频超分方案OVSR

    导读 本文是武汉大学&哈尔滨工业大学&武汉理工在视频超分领域的一次突破性的成果.在深入分析多帧超分.递归超分以及混合框架超分存在的问题之后,本文创造性的提出了同时利用过去和未来隐状态的 ...

  2. NTIRE2021 视频超分竞赛简要回顾

    编辑:Happy 首发:AIWalker 本文对NTIRE2021视频超分竞赛进行了简单的介绍,总而言之一句话:BasicVSR是最大赢家. Dataset NTIRE2021的视频超分竞赛仍然延续N ...

  3. 入选CVPR 2022!一举打败16个同类模型,视频超分比赛冠军算法!

    来源:量子位 如何让模糊的老片变高清? AI的答案是超分辨率算法: 现在,在视频超分领域,有一个强大的算法拿下了超分比赛NTIRE 2021三冠一亚的优异成绩,登上了CVPR 2022. 它的名字叫做 ...

  4. 一举打败16个同类模型,视频超分比赛冠军算法入选CVPR 2022,来自商汤南洋理工大学...

    丰色 发自 凹非寺 量子位 | 公众号 QbitAI 如何让模糊的老片变高清? AI的答案是超分辨率算法: 现在,在视频超分领域,有一个强大的算法拿下了超分比赛NTIRE 2021三冠一亚的优异成绩, ...

  5. 28.41dB,视频超分最新力作:PFNL+双向信息传播=OVSR

    paper:https://arxiv.org/abs/2103.15683 本文是武汉大学&哈尔滨工业大学&武汉理工在视频超分领域的一次突破性的成果.在深入分析多帧超分.递归超分以及 ...

  6. 对于霸榜视频超分领域的VRT方法的深度解读

    (如需转载等事宜请联系"我爱计算机视觉") 作者单位:苏黎世联邦理工大学.Meta.鲁汶大学 论文链接:https://arxiv.org/pdf/2201.12288.pdf 代 ...

  7. 视频超分:EDVR(EDVR: Video Restoration with Enhanced Deformable Convolutional Networks)

    论文:EDVR:视频超分与加强的可变形卷积网络 文章检索出处: 2019 ICCV 摘要和简介 为了处理较大的运动,我们设计了一个金字塔,级联和可变形对齐模块 (PCD).在该模块中,使用可变形卷积从 ...

  8. 传统图像处理与深度学习又一结合:时空多尺度非局部自相似集成视频超分

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:AI算法与图像处理 导读 本文将传统图像处理中的自相似性 ...

  9. 一种用于360度全景视频超分的单帧多帧联合网络

    一种用于360度全景视频超分的单帧多帧联合网络 论文.代码地址:在公众号「3D视觉工坊」,后台回复「全景视频超分」,即可直接下载. 摘要和简介 球形视频,也称360度(全景)视频,它的捕获.存储和传输 ...

最新文章

  1. DataGridView 里数据的动态明细 DataGridView GridView
  2. 吴恩达 coursera ML 第六课总结+作业答案
  3. C# WPD PortableDeviceApiLib获取便携设备列表
  4. Android混淆编译Proguard
  5. 动态系统建模与仿真 基本知识笔记(源自DR_CAN)
  6. linux ps 程序包,linux ps 详解
  7. STM32F205RET6工程应用要点
  8. 利用Blob进行文件上传的完整步骤
  9. c jave等语言作用,编程语言的前世今生,看 Java、C、C++ 等语言的演变
  10. python图像倾斜校正_霍夫变换 文本图片倾斜矫正 python实现
  11. Swing设置窗体背景图片
  12. python网络数据采集学习笔记(二)
  13. 删除数组最后一个元素
  14. 线程让步——Thread.yield()
  15. 搭建SVN服务端及创建SVN账号
  16. 基于web的拼图游戏
  17. 借助微信SEO也可以轻松引流快速增粉
  18. 赤裸的职场-金融圈混子手记
  19. 拼多多店铺怎样提升转化率,如何优化店铺基础值?
  20. MySQL为什么在使用索引的情况下能够提高查询效率,不使用索引又会是什么情形

热门文章

  1. L1-071 前世档案 c语言
  2. 用栈将字符串倒序输出(C++)
  3. 排版字号对应多少pt
  4. 详解图像形态学中的击中击不中变换操作(HMT),并提醒大家OpenCV4中的击中击不中变换操作是有问题的
  5. ex_VideoPlayer
  6. 说完电调就是螺旋桨了
  7. linux文件尺寸的大小不一样,linux下文件大小不一致的情况分析,文件空洞
  8. 【Docker】容器获取宿主机IP和MAC
  9. Java面试(第一组)
  10. 纸牌游戏——《啊哈算法》第二章第三节