点击我爱计算机视觉标星,更快获取CVML新技术


本文解读了香港大学联合中山大学和深睿医疗人工智能实验室 ICCV2019 论文《Motion Guided Attention for Video Salient Object Detection》。

该文提出了基于运动注意力的视频显著物体检测方法(MGA),比之前最好的算法在DAVIS和FBMS数据集上分别提升了4个和8个百分点!

研究背景

显著物体检测问题要求对于每张图片或视频帧,预测一个二类别的像素级分割结果,用以表征图片中的显著或前景物体。

该问题常作为计算机视觉与图形学应用的预处理步骤。

随着深度学习技术的发展,面向图片的显著物体检测方法被广泛研究,而面向视频的显著物体检测有待进一步探索。

为了解决视频的显著物体检测,该论文作者有以下观察:

其一,视频物体的显著性由其外观和运动共同决定,显著物体的运动往往也是显著的,显著运动的区域很可能是显著物体;

其二,物体的运动蕴含空间连贯性信息,运动状态相似的相邻区域很可能同属于一个物体或者背景;

其三,利用运动信息的空间连贯性,有助于分离物体和背景。背景外观可包含纹理不同的多个区域,而物体可包含内部边缘及不同外观的部件,这造成了分割的困难。而表征运动的光流图片相对“干净”(如图1b),可更好地捕捉部分物体边界,成为分割显著物体的契机。

目前现有方法主要通过循环神经网络聚合多个视频帧的卷积特征,或者利用光流和变形来对齐不同帧的特征,而没有通过端到端学习来捕捉和利用光流中的显著运动。

作者提出一系列运动注意力模块,来建模显著运动如何结合外观信息来影响物体显著性。作者还提出了一个双分支网络,用以放置上述注意力模块,来实现视频显著物体检测。

图1

运动引导的注意力机制

为了建模显著运动如何结合外观信息来影响物体显著性的,作者将外观信息抽象为三维的外观特征张量(可为某个ReLU隐层的输出),将显著运动抽象为二维的运动显著图(如某个sigmoid隐层的输出)或者三维的运动特征张量。

首先考虑最简单的情况,如何用一张二维的运动显著图来“关注”三维外观特征的重要位置。

一个直观的朴素模型是将运动显著图与外观特征逐位相乘,来加强外观特征中运动显著的区域的响应。但这个朴素模型的缺点在于,运动显著图中的零元素会“抑制”外观特征中运动不显著或者静止的区域,从而导致物体分割不完整的情况出现。

为了解决朴素模型的缺点,作者提出模型一:采用残差结构,将被加权后的外观特征与最初的外观特征逐位相加,补充回错误抑制的外观信息,使后续的神经网络层有机会勾勒出完整物体。

下面考虑如何利用三维运动特征来关注外观特征。一个简单方案是模仿模型一,与外观特征逐位相乘相加,区别在于要先采用一个1x1卷积来对齐运动特征和外观特征的形状,这样得到模型二。

模型二可以看作是用一个三维权重同时实现空间和通道注意力的机制。但由于运动特征来源于信息量较“稀疏”的光流图片,缺乏纹理信息和复杂语义,基于这样的特征对外观特征进行通道注意力,可能引入额外噪声或导致过拟合。

一个备选方案是运动特征仅用于空间注意力,即先用一个1x1卷积和sigmoid从运动特征预测出运动显著图,在进行类似模型一的操作,这样得到模型三。

图2

最后,基于模型二和三,考虑如何实现合理的通道注意力,作者提出了模型四。

模型四先用运动特征对外观特征进行空间注意力,“空间注意”后的外观特征经由全局平均池化得到一个一维向量,该向量可表征显著运动区域的外观特征。

由于物体的运动和静止部分有较一致的外观属性(如色彩、纹理、语义),那么基于上述运动区域的外观特征向量预测出的一维的通道注意力权重,可有效提高物体静止部分相应属性或通道的响应,从而有助于分割出完整物体。

模型四的末端保留残差结构,以避免零元素“抑制”的问题。

运动引导注意力网络(MGAnet)

图3

接下来,作者提出一个运动引导注意力网络(MGAnet),一方面用来提取前述外观特征、运动特征以及运动显著图,另一方面用来结合前面提出的一系列运动注意力模块,从而形成完整的视频显著物体检测方法。

MGAnet是一个基于DeepLab-V3+的双分支网络。目前不少视频分割方法也采取双分支结构,但主要在各分支末端进行融合,而MGAnet采用多层次的、密集的方式连接两个分支。

MGAnet包含一个以RGB图像为输入的外观分支,一个以光流可视化图片为输入的运动分支,以及连接两分支的6个注意力模块MGA-{0-5}。外观分支的编码器可为ResNet-101或ResNet-50,运动分支的编码器可为ResNet-34或ResNet-18,不同组合均可达到SOTA的性能。

MGA-{0-5}可看作部署注意力模块的“槽”,其中MGA-5仅可采用模型一(运动信息是二维显著图),MGA-0至MGA-4可采取模型二三四中的某一种,一般采用同一种。

实验结果

下文报告几个主要的实验。第一个实验将MGA与现有的视频及图片的显著物体检测方法在三个数据集DAVIS、FBMS和ViSal上比较。

其中,ViSal中并没有划分出训练集供模型训练,能较好地反映模型的泛化能力。

与6个视频模型和11个图片模型相比,MGA在三个数据集上均表现最优,分别获得4个、8个、1个百分点的MaxF的领先。

表1

第二个实验验证网络结构的有效性。作者尝试单独地训练、测试单个分支,其中独立的外观分支等价于语义分割中的SOTA模型DeepLab-V3+;

作者还尝试仅保留编码器部分(MGA-E)或者解码器部分(MGA-D)的注意力模块。实验结果显示,双分支结构有效利用了运动信息,优于任一单分支网络。

注意力模块部署在编码器端或解码器端,均能起到效果,同时部署在编码器和解码器端可获得最佳性能。

第三个实验验证四个运动注意力模块的有效性。三种朴素的特征融合方法,包括逐位相乘、逐位相加和沿通道拼接(concatenate),被作为基线方法。

表3中,“E-”表示部署在编码器端,“D-”表示部署在解码器端。实验结果显示,四种注意力模块均优于基线方法。

其中,较复杂的模型四(MGA-tmc)略优于模型二(MGA-t)和模型三(MGA-tm)。

表2

表3

总的来说,作者利用运动的空间连贯性,采用注意力机制来建模运动对物体显著性的影响,提出了一个简单但准确率高的双分支网络。

与基于循环神经网络的方法不同,该方法利用一个极小时间窗内的时序上下文(即与相邻帧的光流),取得了SOTA的性能。

本文是对原文主要方法和实验的解读,更多细节请参见原文。

论文地址:

https://arxiv.org/pdf/1909.07061.pdf

代码地址:

https://github.com/lhaof/Motion-Guided-Attention


图像分割交流群

关注最新最前沿的显著目标检测、语义分割 、实例分割、全景分割技术,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

(请务必注明:分割)

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

ICCV 2019 | 港大提出视频显著物体检测算法MGA,大幅提升分割精度相关推荐

  1. ICCV 2019 | 厦大提出快速NAS检索方法,四小时搜索NN结构

    点击我爱计算机视觉标星,更快获取CVML新技术 机器之心专栏 作者:郑侠武 ICCV 2019 将于 10.27-11.2 在韩国首尔召开,本次会议总共接受 1077 篇,总提交 4303 篇,接收率 ...

  2. 光流 | 视频中物体检测的研究现状

    ===================================================== github:https://github.com/MichaelBeechan CSDN: ...

  3. 光流 | 特征光流之视频中物体检测一(论文分享)

    ===================================================== github:https://github.com/MichaelBeechan CSDN: ...

  4. 中科院张士峰:基于深度学习的通用物体检测算法对比探索

    https://www.toutiao.com/a6674792954369933838/ 人工智能论坛如今浩如烟海,有硬货.有干货的讲座却百里挑一.由中国科学院大学主办,中国科学院大学学生会承办,读 ...

  5. 碎片2:大白话讲解Mask R-CNN及常见物体检测算法

    文章目录 MASK R-CNN调研报告 1.Introduction 1.1 MASK R-CNN简介 1.2 直觉理解MASK R-CNN 2.Algorithm 2.1已有物体检测算法概述 2.1 ...

  6. 激光雷达:最新趋势之基于RangeView的3D物体检测算法

    作者丨巫婆塔里的工程师@知乎 来源丨https://zhuanlan.zhihu.com/p/406674156 编辑丨3D视觉工坊 之前在LiDAR点云物体检测算法的综述中提到了四个发展阶段.在最开 ...

  7. 大牛讲堂 | 邬书哲:物体检测算法的革新与传承

    大牛讲堂 | 邬书哲:物体检测算法的革新与传承 本文作者:大牛讲堂 2016-11-10 10:01 导语:​邬书哲博士对山世光博士此前讲到的内容在细节上做了补充:R-CNN系列.YOLO和SSD.C ...

  8. 自动驾驶感知——激光雷达物体检测算法

    文章目录 1. 基于激光雷达的物体检测 1.1 物体检测的输入与输出 1.2 点云数据库 1.3 激光雷达物体检测算法 1.3.1 点视图 1.3.1.1 PointNet 1.3.1.2 Point ...

  9. 中科院自动化所博士带你入门CV物体检测算法

    物体检测通常是指在图像中检测出物体出现的位置及对应的类别,它是计算机视觉中的根本问题之一,同时也是最基础的问题,如图像分割.物体追踪.关键点检测等都依赖物体检测. 从应用来看,物体检测已广泛应用于大家 ...

最新文章

  1. java监听变量的变化_[Java学习小记]使用PropertyChangeSupport来监听变量的变化
  2. 在Mybatis-spring上基于注解的数据源实现方案
  3. c语言程序设计字符处理周信东,“电子科技大学出版社(周信东主编)”的C语言程序设计实验-整理代码-.doc...
  4. 学习编程的过程中可能会走哪些弯路,有哪些经验可以参考?
  5. 华为笔记本支持鸿蒙,华为 EMUI11 多屏协同说明新增支持鸿蒙 2.0 手机连接
  6. 抖音是怎么做出来的?| 创业故事
  7. 计算机课对小学生的作用,小学信息技术课的最重要性
  8. 数据报表常用excel公式
  9. 《数据结构与算法分析》之插入排序
  10. 2021年后一个算法工程师的门槛有多高?
  11. 董树义 近代微波测量技术_潘时龙:28岁推开微波光子学大门
  12. arnold如何设置鱼眼相机_关于C4D阿诺德的摄像机参数详解
  13. Python案例-网络编程-socket入门-serverclient
  14. Shell之function函数的定义及调用
  15. 华硕预装系统笔记本一键恢复系统
  16. 匿名函数(Lambda表达式)与箭头函数
  17. 基于对抗训练的轨迹预测半监督算法(美国西北大学和加州尔湾分校)
  18. 什么是repo文件?
  19. Qt信号槽机制详解及案例
  20. oracle数据库锁表查询,解锁,kill缩表进程

热门文章

  1. Kaggle入门——房价预测
  2. 原生html冻结表头,CSS如何实现表头冻结效果
  3. 三年级开始学计算机,三年级学生初识计算机的教学心得
  4. java antd实现登录,AntDesign(React)学习-4 登录页面提交数据简单实现
  5. mysql 大小端_go语言中大小端模式的个人理解
  6. 使用 做签名的post_腾讯IMWeb团队是如何使用 NodeJS 实现 JWT 原理
  7. win10怎么修改服务器地址,电脑Windows10怎么修改IP地址的方法
  8. isis network-entity 49含义_电影《狮子王》真人版上映,经典英语台词背后的含义你看懂了吗...
  9. #define 喵 int_【Angew. Chem. Int. Ed.】具多样化不对称反应性的三氮唑芳基碘化物
  10. mysql索引别名_Mysql索引知识详谈