分享一篇视频超分辨率的论文 Revisiting Temporal Modeling for Video Super-resolution,其为BMVC 2020 论文,该文的结果目前在视频超分的几个数据集上都是排名第一,代码已开源。

作者单位:清华大学、纽约大学、华为诺亚方舟实验室

1

看点

本文提出了一种简洁而又高效的超分架构,在测试集上一帧只需45ms PSNR就可以达到27.69,具有很大的实用价值,亮点如下:

  • 以往已经提出了许多基于深度学习的视频超分辨率(video super-resolution,VSR)方法,但是由于使用不同的损失函数或训练集,因此很难直接比较这些方法。本文统一的研究和比较了三种时域建模方法:早期融合的2D CNN、慢融合的3D CNN和RNN。

  • 提出了一种新的残差循环网络(RRN),利用残差稳定RNN的训练,同时提高超分辨率性能,在三个基准测试集上均达到了SOTA。

2

时域融合模型

2D CNN:采用了几个改进的2D残差块,每个块由3×3卷积层和ReLU组成。模型以2T+1个连续帧为输入,首先先在通道维度串联,然后通过一批残差块,输出shape大小为H×W×Cr^2^的残差特征图,通过depth-to-space上采样四倍得到残差图像R~t~^↑^,和双三次上采样的中心帧相加,得到HR图像。

3D CNN:与2D CNN不同的是,在3D CNN中,使用3×3×3的卷积层来提取时空信息。此外,为了防止帧数减少,我们在时间轴上增加两个像素值为零的帧。

RNN:时间步骤t处的输入有三部分:(1)先前的输出o~t−1~,(2)先前隐藏状态h~t−1~(3)两个相邻帧和。RNN可以利用上一层的互补信息,进一步细化第t时间步的高频纹理细节。

然而,RNN中存在梯度消失的问题。为了解决这一问题,本文提出了一种新的循环网络(RRN),它的内部采用残差块(一个卷积层、一个ReLU层和另一个卷积层组成)。

这种设计保证了信息流的流畅性,并具有长时间保留文本信息的能力,使得RNN更容易处理较长的序列,同时减少了梯度消失的风险。

其中σ(·)为ReLU函数。,为要学习的残差图。

3

实验

实施细节RRN在时间时,先前的估计被初始化为零。三个模型均使用L1损失函数。使用Vimeo-90k作为训练集,对数据集进行BD降质以及crop为64×64的预处理。

量化评估与消融实验作者考虑了两个网络深度不同的模型进行建模。S代表5个堆叠的模块,L则代表10个。下图可以看出不管是在运行时间、运算复杂度还是PSNR值上,RRN相比其他时域建模方法都具有显著的优势。

对是否为残差块和残差块的个数的消融实验,可以看出残差块能有效的抑制梯度消失。

与其他模型的对比,可以发现RRN都达到了STOA。

论文:https://arxiv.org/pdf/2008.05765.pdf

代码:https://github.com/junpan19/RRN

END

备注:超分辨率

超分辨率交流群

图像视频超分辨率,可见光、红外、遥感超分辨率等技术,

若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

简洁的架构还能高效和准确?清华华为提出新型残差循环超分模型:RRN!相关推荐

  1. 架构 encoder_一种新的超分模型蒸馏架构 (ECCV2020)

    Learning with Privileged Information for Efficient Image Super-Resolution,ECCV2020 作者信息: Paper: Lear ...

  2. CVPR2020:扩展架构以实现高效的视频识别(X3D)

    CVPR2020:扩展架构以实现高效的视频识别(X3D) X3D: Expanding Architectures for Efficient Video Recognition 论文地址: http ...

  3. (新SOTA)UNETR++:轻量级的、高效、准确的共享权重的3D医学图像分割

    (新SOTA)UNETR++:轻量级的.高效.准确的共享权重的3D医学图像分割 0 Abstract 由于Transformer模型的成功,最近的工作研究了它们在3D医学分割任务中的适用性.在Tran ...

  4. 如何构建更加高效、准确的对话模型:ChatGPT和大规模预训练模型

    Chatgpt | Chat | Gpt | 小智Ai | Chat小智 | Gpt小智 | ChatGPT小智Ai | GPT小智 |  GPT小智Ai | Chat小智Ai 丨 在人机交互的场景中 ...

  5. 飞书远程会议系统,简洁不简单,会议更高效!

    我开远程会议最怕就是网络卡顿,其次就是记录会议内容.每次开远程会议都有一种上课的紧张感,手拿笔和本,生怕落下哪句"考点".大多数远程会议系统只关注如何多人视频不掉线.信号流畅不延时 ...

  6. 架构师如何高效的学习技术?

    我们相信努力学习一定会有收获,但是方法不当,既让人身心疲惫,也没有切实的回报. 高中时代,我的同桌是个漂亮女同学.她的物理成绩很差,虽然她非常勤奋的学习,但成绩总是不理想. 为了巩固纯洁的同学关系,我 ...

  7. 计算高效,时序一致,超清还原!清华NYU 提出 RRN:视频超分新型递归网络

    原文链接:https://bbs.cvmart.net/articles/3158 专注计算机视觉前沿资讯和技术干货 微信公众号:极市平台 官网:https://www.cvmart.net/ 本文为 ...

  8. 【疯狂的架构】牛公司组织结构图一览:华为,阿里,腾讯,百度,新浪……

    疯狂的架构!科技公司业务图解:1.华为,技术创新引发矩阵结构变化:2.阿里巴巴,马云的影子无时无处不在:3.新浪,依托微博画了一张大饼:4.百度崇尚简单:5.联想,大小通吃但又左右互搏:6.腾讯,产品 ...

  9. CVPR 2022|精准高效估计多人3D姿态,美图北航联合提出分布感知式单阶段模型...

    来源丨AI科技评论 编辑丨极市平台 近日,计算机视觉顶会CVPR 2022公布了会议录取结果,美图影像研究院(MT Lab)与北京航空航天大学可乐实验室(CoLab)联合发表的论文被接收. 该论文突破 ...

最新文章

  1. Activity与Fragment的生命周期详解
  2. srv.sys蓝屏解决补丁_Win10 补丁 KB4556799 导致部分用户蓝屏死机和网络问题
  3. 学计算机河北科技华北理工,河北117所正规高校都在这儿!别被”野鸡大学“忽悠了!...
  4. 句句真研—每日长难句打卡Day17
  5. 纯python好找工作吗_python现在还好找工作吗?
  6. Unity调用iOS原生内购
  7. oracle增加表字段_史上最详细的oracle 中的CR块介绍--一致性读
  8. 加密公司如何获得硅谷传奇风投a16z的青睐
  9. 高防服务器的机房硬件防火墙类型和主要功能
  10. android highcharts柱状图实例,Highcharts 基本柱形图
  11. linux 下 scp 的用法
  12. 四大文明古国与六大文明
  13. 18.MYSQL数据库(1)
  14. 记一次windows 10 无法升级问题的处理(系统盘MBR转GPT)
  15. php css属性,php学习之css常用的属性(三)
  16. Vue-Router学习记录
  17. HTML知识点(来自广陵散老师)
  18. iWebShop 电商项目实战004----功能测试
  19. c语言中int作用,c语言中int的用法(5页)-原创力文档
  20. Python如何将仅包含音频内容的Mp4,提取并转换为Mp3

热门文章

  1. Docker学习四:Docker 网络
  2. 【读书笔记0102】Beginning linux programming-3rd
  3. vs 正则表达式转大写_liunx之通配符amp;正则表达式
  4. linux没有pigz指令,Linux命令手册
  5. 上银伺服驱动器说明书_威海伺服驱动器维修,诚信互利
  6. Oracle 实验6 PL/SQL编程
  7. 惠普ns1005w使用说明_惠普 NS1005w 多功能一体机解析:15秒智能闪充 + 全功能手机操控...
  8. 可以自动化部署吗_从自动化测试到持续部署,你需要了解这些!
  9. python中如何追加_如何在Python中将元素添加到列表中-追加,扩展和插入
  10. 云盘运用了计算机技术,360云盘咋找出来