MAU: A Motion-Aware Unit for Video Prediction andBeyond学习记录
3.1
为了确保加宽的时间感受野能够被充分利用,两个问题待解决:
1,当前感受野中的时间状态应根据其重要性进行聚合;
2,应该合理地融合来自聚集的时间状态的运动信息和来自空间状态的外观信息。
3.2 MAU
对于t时间步第k层的MAU会有两个输入:1,k层前τ(tao)时刻的时间状态集T;2,k-1层前τ+1时刻的空间状态集S
为解决3.1中第一个问题,量化不同时间状态之间的相关性,可用相应的空间状态的相关性
k层t-j时刻的时间状态的注意力分数可用(3)表示
公式(3)的第二行是t时刻k-1层的空间状态的卷积S’与前τ(tao)时刻分别相乘再进行SUM(SUM操作作者并未做过多解释,我理解为矩阵所有元素相加得到一个数)
公式(4)是利用注意力分数表示时间状态集,即Tatt等于第k层时间状态的前τ(tao)个时刻分别与其对应α相乘再累加,这里我的理解是,一共τ(tao)个T,每个T前面都有一个系数,系数的大小决定T在每个时刻的重要性,而T的系数都是小于1的,τ(tao)个T累加起来得到Tatt。
而系数α大小取决于空间状态的相关性。举例,公式(4)在j=1时的α大小是取决于第k-1层的S在t-1时刻与第k-1层的S在t时刻卷积的Hadamard product,乘积越大则α越大,也就越相关,则在Tatt中T(k,t-1)占比也就越大。
Tatt被称为长期运动信息,再加上短期运动信息通过门控机制融合为Tami即增强运动信息。
为解决3.1中的第二个问题,作者设计融合模块以将增强运动信息Tami中的运动信息与当前输入S(k−1,t)中的外观信息聚合。
更新后的T和S如公式(7)所示,第二行末项为了稳定训练过程。
3.2 信息召回、
不做过多赘述。
MAU: A Motion-Aware Unit for Video Prediction andBeyond学习记录相关推荐
- 预测学习应用于机器人之Unsupervised Learning for Physical Interaction through Video Prediction
这篇论文是Chelsea Finn在2016Nips上发表的将video prediction和robotics结合起来的一个很好的尝试.这是之后很多基于动作的视频预测任务的baseline模型,对于 ...
- 《SDC-Net: Video prediction using spatially-displaced convolution》论文笔记
论文:SDC-Net: Video prediction using spatially-displaced convolution 地址1:https://link.springer.com/cha ...
- 【论文翻译】EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEYOND
pdf链接:https://openreview.net/pdf?id=B1lKS2AqtX EIDETIC 3D LSTM: A MODEL FOR VIDEO PREDICTION AND BEY ...
- 2019-Cubic LSTMs for Video Prediction
2019-Cubic LSTMs for Video Prediction Hehe Fan, Linchao Zhu, Yi Yang 论文链接 Abstract 预测视频中的未来帧已成为计算机 ...
- 论文阅读 | Optimizing Video Prediction via Video Frame Interpolation
前言:CVPR2022利用视频插帧做视频预测的文章,用到的是优化的思想,不用训练网络 论文地址:[here] Optimizing Video Prediction via Video Frame I ...
- 论文阅读笔记(1)Beyond Natural Motion: Exploring Discontinuity for Video Frame Interpolation——超越自然运动: 探索视频帧
论文:Beyond Natural Motion: Exploring Discontinuity for Video Frame Interpolation 会议:2022CVPR February ...
- 时空序列预测:SimVP: Simpler yet Better Video Prediction解读
文章摘要:从CNN.RNN到VIT,包含了辅助输入,精细的神经架构和复杂的训练策略.是否有一种简单的方法可以表现得同样好?本文提出了SimVP模型,并通过MSE LOSS以端到端的方式进行训练. gi ...
- 论文阅读——S. Lee, et al., Beyond Natural Motion: Exploring Discontinuity for Video Frame Interpolation
S. Lee, et al., Beyond Natural Motion: Exploring Discontinuity for Video Frame Interpolation 摘要 1. 介 ...
- 【图像分割】MGA:Motion Guided Attention for Video Salient Object Detection
文章: Motion Guided Attention for Video Salient Object Detection 代码:https://github.com/lhaof/Motion-Gu ...
最新文章
- 2021年大数据Kafka(八):Kafka如何保证数据不丢失
- Linux嵌入式驱动管理调试平台 ------ 我的第一个开源项目
- 让div margin属性消失_margin 和 padding
- 深度解析 H.265 视频解决方案
- 黑马程序员_java总结_网络编程基础
- Druid-基本概念
- 怎么打开网络访问 计算机共享,电脑只要打开共享提示“无法启用共享访问”如何解决...
- 怎么修改监控服务器的密码,服务器状态监控怎么设置密码
- git add 所有修改文件_Git 技术干货!工作中quot;Gitquot;的使用实践和常用命令合集!
- OSChina 周日乱弹 —— 你有什么心理疾病?
- java 传xml js_JavaScript实现的XML与JSON互转功能详解
- [转载] python判断字符串中包含某个字符串_干货分享| Python中最常用的字符串方法
- 八、属性和方法(属性和方法的概念以及使用,注意,新特性中的自动属性,方法的重载)...
- 高温持续,三峡水库向长江中下游补水5亿立方米
- 如何正确的将拼多多的买家晒图采集并保存
- 外卖点餐管理系统源码
- 一区希尔盖服务器找不到,魔兽世界怀旧服:服务器第一成就达成!分享一下心得...
- win10计算机卸载了,win10 如何卸载软件_win10电脑如何卸载软件-win7之家
- 经典题目3-应用的闪退通常是什么原因造成的?如果应用闪退,Android 和 iOS 上是分别怎么抓取日志的?
- 朋友圈为什么不做智能排序?