简洁的架构还能高效和准确?清华华为提出新型残差循环超分模型:RRN!
分享一篇视频超分辨率的论文 Revisiting Temporal Modeling for Video Super-resolution,其为BMVC 2020 论文,该文的结果目前在视频超分的几个数据集上都是排名第一,代码已开源。
作者单位:清华大学、纽约大学、华为诺亚方舟实验室
1
看点
本文提出了一种简洁而又高效的超分架构,在测试集上一帧只需45ms PSNR就可以达到27.69,具有很大的实用价值,亮点如下:
以往已经提出了许多基于深度学习的视频超分辨率(video super-resolution,VSR)方法,但是由于使用不同的损失函数或训练集,因此很难直接比较这些方法。本文统一的研究和比较了三种时域建模方法:早期融合的2D CNN、慢融合的3D CNN和RNN。
提出了一种新的残差循环网络(RRN),利用残差稳定RNN的训练,同时提高超分辨率性能,在三个基准测试集上均达到了SOTA。
2
时域融合模型
2D CNN:采用了几个改进的2D残差块,每个块由3×3卷积层和ReLU组成。模型以2T+1个连续帧为输入,首先先在通道维度串联,然后通过一批残差块,输出shape大小为H×W×Cr^2^的残差特征图,通过depth-to-space上采样四倍得到残差图像R~t~^↑^,和双三次上采样的中心帧相加,得到HR图像。
3D CNN:与2D CNN不同的是,在3D CNN中,使用3×3×3的卷积层来提取时空信息。此外,为了防止帧数减少,我们在时间轴上增加两个像素值为零的帧。
RNN:时间步骤t处的输入有三部分:(1)先前的输出o~t−1~,(2)先前隐藏状态h~t−1~(3)两个相邻帧和。RNN可以利用上一层的互补信息,进一步细化第t时间步的高频纹理细节。
然而,RNN中存在梯度消失的问题。为了解决这一问题,本文提出了一种新的循环网络(RRN),它的内部采用残差块(一个卷积层、一个ReLU层和另一个卷积层组成)。
这种设计保证了信息流的流畅性,并具有长时间保留文本信息的能力,使得RNN更容易处理较长的序列,同时减少了梯度消失的风险。
其中σ(·)为ReLU函数。,为要学习的残差图。
3
实验
实施细节RRN在时间时,先前的估计被初始化为零。三个模型均使用L1损失函数。使用Vimeo-90k作为训练集,对数据集进行BD降质以及crop为64×64的预处理。
量化评估与消融实验作者考虑了两个网络深度不同的模型进行建模。S代表5个堆叠的模块,L则代表10个。下图可以看出不管是在运行时间、运算复杂度还是PSNR值上,RRN相比其他时域建模方法都具有显著的优势。
对是否为残差块和残差块的个数的消融实验,可以看出残差块能有效的抑制梯度消失。
与其他模型的对比,可以发现RRN都达到了STOA。
论文:https://arxiv.org/pdf/2008.05765.pdf
代码:https://github.com/junpan19/RRN
END
备注:超分辨率
超分辨率交流群
图像视频超分辨率,可见光、红外、遥感超分辨率等技术,
若已为CV君其他账号好友请直接私信。
我爱计算机视觉
微信号:aicvml
QQ群:805388940
微博知乎:@我爱计算机视觉
投稿:amos@52cv.net
网站:www.52cv.net
在看,让更多人看到
简洁的架构还能高效和准确?清华华为提出新型残差循环超分模型:RRN!相关推荐
- 架构 encoder_一种新的超分模型蒸馏架构 (ECCV2020)
Learning with Privileged Information for Efficient Image Super-Resolution,ECCV2020 作者信息: Paper: Lear ...
- CVPR2020:扩展架构以实现高效的视频识别(X3D)
CVPR2020:扩展架构以实现高效的视频识别(X3D) X3D: Expanding Architectures for Efficient Video Recognition 论文地址: http ...
- (新SOTA)UNETR++:轻量级的、高效、准确的共享权重的3D医学图像分割
(新SOTA)UNETR++:轻量级的.高效.准确的共享权重的3D医学图像分割 0 Abstract 由于Transformer模型的成功,最近的工作研究了它们在3D医学分割任务中的适用性.在Tran ...
- 如何构建更加高效、准确的对话模型:ChatGPT和大规模预训练模型
Chatgpt | Chat | Gpt | 小智Ai | Chat小智 | Gpt小智 | ChatGPT小智Ai | GPT小智 | GPT小智Ai | Chat小智Ai 丨 在人机交互的场景中 ...
- 飞书远程会议系统,简洁不简单,会议更高效!
我开远程会议最怕就是网络卡顿,其次就是记录会议内容.每次开远程会议都有一种上课的紧张感,手拿笔和本,生怕落下哪句"考点".大多数远程会议系统只关注如何多人视频不掉线.信号流畅不延时 ...
- 架构师如何高效的学习技术?
我们相信努力学习一定会有收获,但是方法不当,既让人身心疲惫,也没有切实的回报. 高中时代,我的同桌是个漂亮女同学.她的物理成绩很差,虽然她非常勤奋的学习,但成绩总是不理想. 为了巩固纯洁的同学关系,我 ...
- 计算高效,时序一致,超清还原!清华NYU 提出 RRN:视频超分新型递归网络
原文链接:https://bbs.cvmart.net/articles/3158 专注计算机视觉前沿资讯和技术干货 微信公众号:极市平台 官网:https://www.cvmart.net/ 本文为 ...
- 【疯狂的架构】牛公司组织结构图一览:华为,阿里,腾讯,百度,新浪……
疯狂的架构!科技公司业务图解:1.华为,技术创新引发矩阵结构变化:2.阿里巴巴,马云的影子无时无处不在:3.新浪,依托微博画了一张大饼:4.百度崇尚简单:5.联想,大小通吃但又左右互搏:6.腾讯,产品 ...
- CVPR 2022|精准高效估计多人3D姿态,美图北航联合提出分布感知式单阶段模型...
来源丨AI科技评论 编辑丨极市平台 近日,计算机视觉顶会CVPR 2022公布了会议录取结果,美图影像研究院(MT Lab)与北京航空航天大学可乐实验室(CoLab)联合发表的论文被接收. 该论文突破 ...
最新文章
- Activity与Fragment的生命周期详解
- srv.sys蓝屏解决补丁_Win10 补丁 KB4556799 导致部分用户蓝屏死机和网络问题
- 学计算机河北科技华北理工,河北117所正规高校都在这儿!别被”野鸡大学“忽悠了!...
- 句句真研—每日长难句打卡Day17
- 纯python好找工作吗_python现在还好找工作吗?
- Unity调用iOS原生内购
- oracle增加表字段_史上最详细的oracle 中的CR块介绍--一致性读
- 加密公司如何获得硅谷传奇风投a16z的青睐
- 高防服务器的机房硬件防火墙类型和主要功能
- android highcharts柱状图实例,Highcharts 基本柱形图
- linux 下 scp 的用法
- 四大文明古国与六大文明
- 18.MYSQL数据库(1)
- 记一次windows 10 无法升级问题的处理(系统盘MBR转GPT)
- php css属性,php学习之css常用的属性(三)
- Vue-Router学习记录
- HTML知识点(来自广陵散老师)
- iWebShop 电商项目实战004----功能测试
- c语言中int作用,c语言中int的用法(5页)-原创力文档
- Python如何将仅包含音频内容的Mp4,提取并转换为Mp3
热门文章
- Docker学习四:Docker 网络
- 【读书笔记0102】Beginning linux programming-3rd
- vs 正则表达式转大写_liunx之通配符amp;正则表达式
- linux没有pigz指令,Linux命令手册
- 上银伺服驱动器说明书_威海伺服驱动器维修,诚信互利
- Oracle 实验6 PL/SQL编程
- 惠普ns1005w使用说明_惠普 NS1005w 多功能一体机解析:15秒智能闪充 + 全功能手机操控...
- 可以自动化部署吗_从自动化测试到持续部署,你需要了解这些!
- python中如何追加_如何在Python中将元素添加到列表中-追加,扩展和插入
- 云盘运用了计算机技术,360云盘咋找出来