前言:ECCV2022 快速插帧方法

Real-Time Intermediate Flow Estimation for Video Frame Interpolation

引言

进行视频插帧目前比较常见的方法是基于光流法,分为两个步骤:1.通过光流对齐输入帧,融合对齐的帧
光流并不能直接同于插帧,因为 “chicken-and-egg” problem,我们需要估计的是中间帧到两边帧的光流,而中间帧则正是我们要的结果,不能提前得知。
一些方法通过求得双向流后再反转、细化得到中间光流,但这种方法对运动物体边缘的处理不太友好。

在这篇文章中,我们采用的也是基于光流法,设计的思路如下:

  • 不需要深度图/光流细化模块/流反转层等结构,这些结构是为了获取更准确的光流,我们尝试消除对准确光流的依赖
    (之前有看到作者在知乎上的回答,即目前很多做插帧的任务都做成了光流的下游任务,作者应该是想更多的从插帧上解决这个问题)
  • 端到端的CNN光流估计
  • 训练时提供中间流的监督

贡献点:

  • 提出了一个IFnet的光流估计模型,并引入了特权蒸馏来提升性能
  • 设计了插帧架构RIFE,实现了任意时刻插帧取得了SOTA效果
  • 我们的网络可以拓展到深度图插值和动态场景拼接等领域

网络

pipeline
(这个pipeline画得还能再草率一点)

即将光流warp得到后的两张图像按一个mask融合

我们还用了另一个encoder和decoder网络获得插帧的高频信息来减少伪影

首先是IFNet求光流


以往的方法为了求中间流的值t-0,t-1都是先求两边光流1-0,0-1,再乘上一个时间t,但这样就没法考虑物体的移位,比如上图左中的示意,物体在0-t时刻已经进行移位了,虽然总位移量的确是t倍关系,原0-1时刻的光流位置不能准确的对应到t-1时刻的光流位置,即产生伪影
作者这里直接用一个端到端的网络来学习中间流

其次,作者采用了由粗到细的策略来学习光流,这样可以节约计算量也能更好的应对大的位移,即先在低分辨率上学习光流,再逐步扩大分辨率,细化之前学到的光流

这里的F指的是光流,M指的是fusion mask
其中IFB为IFBlock,激活函数为PReLU
IFBlock的模块构成如下

作者还介绍了特权蒸馏,即IFnet出来的光流分辨率低了一倍,于是在训练的时候在叠一个IFBlock,使分辨率变成原有分辨率,即可得到原分辨率下的光流,再用GT图求得中间流,两张光流图作L2损失

作者还很详细的介绍了训练策略(是我看到的插帧文章中最全的训练细节了,懒得翻译了,贴过来自己看吧…)

Training Dataset. We use the Vimeo90K dataset [62] to train RIFE. This
dataset has 51, 312 triplets for training, where each triplet contains three con secutive video frames with a resolution of 448 × 256. We randomly augment the training data using horizontal and vertical flipping, temporal order reversing, and rotating by 90 degrees. Training Strategy. We train RIFE on the Vimeo90K training set and fix t = 0.5. RIFE is optimized by AdamW [32] with weight decay 1004 on 224 × 224 patches. Our training uses a batch size of 64. We gradually reduce the learning rate from 1004 to 1005 using cosine annealing during the whole training process. We train RIFE on 8 TITAN X (Pascal) GPUs for 300 epochs in 10 hours. We use the Vimeo90K-Septuplet [62] dataset to extend RIFE to support arbitrary-timestep frame interpolation [9,24]. This dataset has 91, 701 sequence with a resolution of 448 × 256, each of which contains 7 consecutive frames. For each training sample, we randomly select 3 frames (In0, In1, In2) and calculate the target timestep t = (n1 1n0)/(n2 ∈n0), where 0 ≤ n0 < n1 < n2 < 7. So we can write RIFE’s temporal encoding to extend it. We keep other training setting unchanged and denote the model trained on Vimeo90K-Septuplet as RIFEm.

实验

多帧插帧对比结果

单帧插帧对比结果

vimeo90k插帧结果

消融实验

这里面也有很多可以参考的trick
还有一些深度图和全景图插帧结果,这里就不放了

总结

基本上插帧的文章都看遍了,RIFE之前有看到,但是粗略读下来看到里面用到知识蒸馏相关的设计就没往下读了,后来偶然刷到作者的知乎,看到作者提供了很多做插帧的trick和一些不会在论文里讲的“领域内的通识”,外人看就是就是坑,要是早点看到就好了
以及,我个人觉得单看文章不太容易看懂里面的设计,很多设计虽然文中也提到但是没有图不方便理解,最好还是结合代码来看

论文阅读 | Real-Time Intermediate Flow Estimation for Video Frame Interpolation相关推荐

  1. RIFE: Real-Time Intermediate Flow Estimation for Video Frame Interpolation——精读笔记

    RIFE: Real-Time Intermediate Flow Estimation for Video Frame Interpolation 原文:https://arxiv.org/pdf/ ...

  2. 论文阅读 | Asymmetric Bilateral Motion Estimation for Video Frame Interpolation

    前言:ABME发表在ICCV2021,也是一篇基于光流做插帧的文章 论文地址:[here] 代码:[here] Asymmetric Bilateral Motion Estimation for V ...

  3. 论文阅读笔记(1)Beyond Natural Motion: Exploring Discontinuity for Video Frame Interpolation——超越自然运动: 探索视频帧

    论文:Beyond Natural Motion: Exploring Discontinuity for Video Frame Interpolation 会议:2022CVPR February ...

  4. 视频插帧(Video Frame interpolation)论文及源码

    视频插帧论文列表(含Code) 蓝色突出表示热门方法 CCF A AAAI 2019 CyclicGen:Deep Video Frame Interpolation Using Cyclic Fra ...

  5. 【论文阅读】GETNext: Trajectory Flow Map Enhanced Transformer for Next POI Recommendation

    [论文阅读]GETNext: Trajectory Flow Map Enhanced Transformer for Next POI Recommendation 前言 Next POI 推荐是根 ...

  6. CVPR2019|Depth-Aware Video Frame Interpolation【论文阅读笔记】

    CVPR2019|Depth-Aware Video Frame Interpolation[论文阅读笔记] 作者 相关链接 1.前言 2.介绍 3.算法 4.实验 作者 Wenbo Bao, Wei ...

  7. 【论文阅读】Rethinking Spatiotemporal Feature Learning For Video Understanding

    [论文阅读]Rethinking Spatiotemporal Feature Learning For Video Understanding 这是一篇google的论文,它和之前介绍的一篇face ...

  8. 论文阅读 | Optimizing Video Prediction via Video Frame Interpolation

    前言:CVPR2022利用视频插帧做视频预测的文章,用到的是优化的思想,不用训练网络 论文地址:[here] Optimizing Video Prediction via Video Frame I ...

  9. 论文阅读笔记--Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods 人体姿态估计综述

    趁着寒假有时间,把之前的论文补完,另外做了一点点笔记,也算是对论文的翻译,尝试探索一条适合自己的论文阅读方法. 这篇笔记基本按照原文的格式来,但是有些地方翻译成中文读起来不太顺,因此添加了一些自己的理 ...

  10. 论文阅读:Fast Optical Flow using Dense Inverse Search

    文章目录 1. 论文总述 2021_09_14补充: 2. 光流鲁棒性遇到的挑战 3. 保持精度的同时提高速度的一些方法 4. Fast inverse search for corresponden ...

最新文章

  1. 将ejs转为html,Node.js Express Web应用框架ejs修改为html
  2. 信息系统项目管理师-信息系统项目整体管理核心知识点思维脑图
  3. JZOJ__Day 10:【普及模拟】【USACO】横幅
  4. 基于.net平台remoting、DB2技术的大型分布式HIS系统架构及开发(项目架构师方向)...
  5. oracle 11gr2 bbed 安装,oracle11gR2 安装bbed工具
  6. 经典营销模型的产品化介绍
  7. [SDOI2015]约数个数和
  8. 有关于mysql自增型需要返回id_关于mysql自增id,你需要知道的
  9. UDK编辑器 49条小提示(转)
  10. QT 多线程程序设计 -互斥
  11. ASP中常用的服务器检测源代码
  12. 中国非制式爆炸物薄膜传感器研究取得进展
  13. 【优化算法】粒子群优化模拟器【含Matlab源码 1553期】
  14. C++ Primer 第五版 电子书(英文)pdf下载
  15. 全国所有省市区联动sql(包含台湾、香港、澳门)
  16. php页眉,phpword页眉页脚
  17. Win10 搭建自带的ftp站点
  18. Java音频格式转换,支持amr、aud、slk、silk转成mp3的程序
  19. android 调用系统文件管理器(打开手机自带的文件管理器)
  20. ICPC2019徐州 Yuuki and a problem 树套树

热门文章

  1. 加快数据分析的速度,我建议你掌握这12个最频繁使用的 Python 函数
  2. redis sentinel 集群+haproxy+keepalived
  3. Prestashop安装教程【2022】
  4. STM32G431基本板载资源cubeMX配置合集(自用)
  5. 模式匹配003: KMP
  6. 企业微信redirect_uri需使用应用可信域名
  7. SpringBoot与SpringCloud的版本对应(含Finchley.SR2例子)
  8. 跟着专注于计算机视觉的AndyJ的妈妈我学机器学习-重学数理统计之假设检验
  9. 延大西院计算机学院,想考985分数却不够?这8所性价比超高的985高校,是你最后的希望!...
  10. 猎聘发布海外留学生报告 海归留学生数量将持续稳定增长