论文解读 | 利用自适应图推理的光流学习方法
此篇论文已被 AAAI 2022 收录,论文链接请见“阅读原文”。
研究动机
光流可以表达视频两帧图像之间的像素级对应关系,它是视频理解和分析领域中的一项基本任务。尽管基于深度学习的方法展示了强大的帧间匹配能力,但现有方法都存在一个明显的问题,即这些方法主要侧重于解决两帧图像的特征之间的匹配相似性,缺乏对给定场景的全局性运动情况进行分析。因此,由运动模糊、遮挡和大运动引起的匹配困难的情况严重影响了当前模型的精度。
图 1 展示了一组具有强烈运动模糊的困难样本示例,可以明显看出,现有前沿方法 RAFT[1]和 SCV[2]受到运动模糊的严重影响而得到误差较大的光流估计结果。
图1 一组来自 Sintel(finalpass)数据集的具有强烈运动模糊的困难图像示例
仔细分析现在的前沿的光流方法[1,3],它们的成功主要归功于一个重要的模块--四维关系体(4D correlation-volume),用该关系体对帧间图像特征之间的相关性进行建模。此外,为了更好地利用图像场景信息对运动场进行约束,现有方法[1]通过引入额外的卷积分支对场景信息进行编码,再利用简单的级联操作将其融入运动特征进行最终的流场估计。
基于该框架,可以分析现有方法难以得到图像中的全局性运动情况的原因:
第一,现有的方法仅通过简单的操作(例如特征叠加)来使用场景信息,并没有显式建模此类过程的方法;
第二,它们的操作都受限于原始坐标(网格)空间和卷积的局部操作,不但需要依赖大量的计算资源来获得足够的感受野,并且缺乏对给定场景的全局情况进行分析;
第三,它们忽略了“域差异”带来的影响,即场景内容特征(context feature)和运动特征(motion feature)之间的差异。
为了解决以上问题,本文提出了一种新的基于图模型的方法,即自适应图推理光流模型(AGFlow),如图 2 所示,将图模型技术融入到光流估计网络中,以实现有效的场景内容特征推理和运动特征交互,从而降低了模糊匹配的不确定性对光流估计的影响。
图2 本文提出的自适应图推理光流模型的整体框架
节点生成
首先将标准坐标空间中的特征投影到图空间中,投影操作需要将特征信息与原始网格位置信息分离,使生成的低维节点特征更加紧凑。这里将图模型中的节点向量分为两组:1) 内容节点 ,包含场景中的区域信息、物体的形状以及外观特征;2) 运动节点 ,包含帧间图像匹配相关的运动特征。
给定特征图 ,这里用投影函数 来将具有相似特征表达的向量分配给同一节点,即 ,因此生成的节点能够在原始特征图中整合远距离特征的信息。投影过程表示为:
其中, 是 L-2 归一化函数,在每个节点向量的通道维度上进行。 是基于特征生成投影权重的函数。因此,两种类型的节点向量都可以通过 和 来生成。
自适应图推理
首先从特征属性角度分析场景内容节点和运动节点的差异。运动节点主要对帧间图像之间的像素级对应关系进行编码,而忽略在两帧中对各自图像像素之间的内部关系进行分析;相反,场景内容节点只捕捉形状和区域边界的判别性特征。因此,这里需要解决两个困难:1) 场景内容和运动节点之间不可避免地存在特征表达的差异,这可能会阻碍直接进行全局性图模型推理的有效信息传递;2) 运动节点缺乏对潜在位移场的形状或分布的约束,因此其节点特征之间无法产生足够的信息来支撑准确的特征交互。
本文提出自适应图推理模块来解决这些问题,其核心思想是利用全局环境中的形状和区域的判别性特征表达来引导具有自适应参数的动态邻域矩阵的学习。本文参考引导学习[4]的方法,设计了一种学习邻域矩阵的自适应过程,可以根据当前图像特定的场景内容来预测动态参数并进行运动关系建模。自适应邻域矩阵可以表示为:
其中, 是一个参数学习器, 表示基于动态权重 的场景内容到运动节点的图适应模块(graph adapter),如图 3 所示。
图3 自适应图推理中的图适应模块
生成的参数 依赖于内容节点来动态利用当前场景的区域、形状和边界等先验特征。因此,运动节点可以快速适应场景内容,并充分利用节点关系进行图模型推理。整个模型可以表示为:
其中 表示图卷积神经网络的信息交互过程 () [5]。
实验分析
图4 本文方法与前沿方法在光流估计标准数据集上的对比
本文提出方法与前沿方法在光流估计标准数据集上的对比如图 4 所示,AGFlow 在 Sintelclean pass 上可以达到 1.43 EPE 的效果,在 finalpass 上创造了 2.47 EPE 的新记录,分别比之前的最好结果提高 11.2%和 13.6%。在 KITTI2015 测试集上,AGFlow 实现了 4.89% F1-all 的最好效果,分别比之前的方法 SCV 和 RAFT 高出 20.7%和 4.1%。更多的消融实验如图 5 所示。
图5 自适应图推理的模块消去实验
图 6 展示了 AGFlow 与 RAFT[1]在充满挑战的 Sintelfinal pass 和 KITTI 数据集上的定性对比结果,可视化结果表明了本文方法能够充分利用场景内容信息,有效地利用形状和区域约束等信息来辅助运动估计,从而得到更精确的流场和清晰的运动边界。
图6 本文方法与 RAFT 在光流估计标准数据测试集上的可视化结果对比
总结
1.本文提出第一个使用图模型技术来显式利用场景内容信息辅助光流估计的模型,它可以打破图像常规网格结构的限制来进行图空间上的信息交互,以实现更好的全局性运动理解;
2.本文设计的图适应模块可以充分利用场景内容特征,以学习适应机制来引导全局运动信息在图模型中进行信息交互;
3.AGFlow 在Sintel 和 KITTI 基准上以明显的优势超过了前沿方法。
参考文献
[1] Teed et al.RAFT: Recurrent All-Pairs Field Transforms for Optical Flow. In ECCV 2020.
[2] Jiang etal. Learning Optical Flow from a Few Matches. In CVPR 2021.
[3] Sun et al.Pwc-net: Cnns for optical flow using pyramid, warping, and cost volume. InCVPR, 2018.
[4] Bertinettoet al. Learning feed-forward one-shot learners. In NeurIPS, 2016.
[5] Kipf et al.Semi-Supervised Classification with Graph Convolutional Networks. In ICLR,2017.
论文解读 | 利用自适应图推理的光流学习方法相关推荐
- 半监督学习matlab,基于自适应图的半监督学习方法与流程
本发明属计算机视觉.图形处理 技术领域: ,具体涉及一种基于自适应图的半监督学习方法. 背景技术: :随着计算机网络技术的快速发展和人们对数据访问的多样化,人们可以获得的信息呈指数级别增长,如何利用这 ...
- 为什么正则化可以起到对模型容量进行控制_论文解读 | 基于正则化图神经网络的脑电情绪识别...
©PaperWeekly 原创 · 作者|张玮玮 学校|东北大学硕士生 研究方向|情绪识别 引言论文动机 现有的基于脑电图的情绪识别方法大多不能很好地解决以下三个方面的问题:1. 脑电图信号的拓扑结构 ...
- 论文解读 | 基于正则化图神经网络的脑电情绪识别
©PaperWeekly 原创 · 作者|张玮玮 学校|东北大学硕士生 研究方向|情绪识别 引言 论文动机 现有的基于脑电图的情绪识别方法大多不能很好地解决以下三个方面的问题: 1. 脑电图信号的拓 ...
- EMNLP2018论文解读 | 利用篇章信息提升机器翻译质量
<使用篇章上下文提升 Transformer 翻译模型>是搜狗和清华大学天工研究院合作发表在 EMNLP 2018 的工作.机器翻译在搜狗公司的多个产品线得到广泛应用,包括搜狗英文搜索.搜 ...
- 顶会CIKM‘21论文解读:基于图神经网络的人类行为轨迹恢复模型
摘要:本文是由华为云数据库创新Lab联合电子科技大学数据与智能实验室发表在顶会CIKM'21的文章,该文章提出首个克服人类移动轨迹数据中普遍存在的多层次周期性.周期偏移现象以及数据稀疏问题的轨迹恢复模 ...
- 【论文解读】KDD20 | 图神经网络在生物医药领域的应用
论文解读者:北邮 GAMMA Lab 硕士生 楚贯一 1 引言 最近,越来越多的研究开始将深度学习方法应用到图数据领域.图神经网络在数据具有明确关系的结构场景,如物理系统,分子结构和知识图谱中有着广 ...
- 【论文解读】基于图卷积的价格感知推荐
Paper:Price-aware Recommendation with Graph Convolutional Networks Link:https://arxiv.org/pdf/2003.0 ...
- FPN论文解读(附网络结构层次代码)
这篇论文是CVPR2017年的文章,采用特征金字塔做目标检测,有许多亮点,解决了多尺度目标的检测问题. # 论文题目 FeaturePyramidNetworksforObjectDetection ...
- 论文浅尝 | 知识图谱推理中表示学习和规则挖掘的迭代学习方法
作者:张文,浙江大学在读博士,研究方向为知识图谱的表示学习,推理和可解释. 本文是我们与苏黎世大学以及阿里巴巴合作的工作,发表于WWW2019,这篇工作将知识图谱推理的两种典型方法,即表示学习和规则进 ...
最新文章
- 2.1JAVA基础复习——JAVA语言的基础组成注释和常量变量
- Android学习笔记--WIFI的操作
- React JSX 实例图解
- 【数理知识】《随机过程》方兆本老师-第4章-平稳过程
- 程序员面试题精选100题(02)-设计包含min函数的栈[数据结构]
- 数据库:MySQL索引总结
- python元类的简单了解
- FTP and Firewalls
- [转载]EXT核心API详解Ext.data(八)- Connection/Ajax/Record javascript
- web developer tips (56):手动更新JScript的智能感知
- java开发中/final关键字/多态/抽象类/接口/形式参数与返回值/内部类/匿名内部类知识梳理
- 医学案例统计分析与SAS应用--自学笔记
- 交叉线 or 直通线 ?
- 为什么面向对象糟透了?
- local variable ‘count‘ referenced before assignment
- GitLab CI/CD 配置指南 .gitlab-ci.yml文件的配置
- ltm4650_LTM4650IY-1APBF_代理全新进口【linear】现货商
- 实习僧-产品体验报告
- Servlet与表单、数据库综合项目实战【学生信息管理】
- 移动UI设计-表单设计
热门文章
- Spring Boot之使用阿里巴巴Druid数据库连接池(数据源)
- 专访《硅谷百年史》作者:AI、基因编辑如何在未来10年重塑人类生命形态?
- 计算机考试客户端无法交卷,卓帆信息技术考试系统安装以后不能交卷,是什 – 手机爱问...
- 一份APT报告里有什么?
- 电脑管家让电脑性能直线下降的可能原因
- 彻底清理卸载后残留文件解决方案
- VS代码片段(snippet)创作工具——Snippet Editor
- 2.2Word2003字体设置2
- c语言结构类型ppt,C语言 第10章 结构类型与其他构造类型.ppt
- Qt操作至少需要一个处于启用状态的有效资料档案库