temporal action proposals论文总结——DAPs与SST

temporal action proposals

其主要目的是将长视频根据语义分割成多个segment,因为现在的针对视频的任务对长视频处理并不理想,比如视频的action detection和caption等。因此需要现将长视频分割成多个短视频,再进行处理。temporal action proposals是根据长视频的动作语义信息在时间维度来对长视频进行分割,保证每个segment包含一个action。本文将介绍两种方法,一种是2016年在ECCV上提出的DAPs,另一个是2017年CVPR的SST,SST也是DAPs的改进版,也是我们重点讨论的。

DAPs: Deep Action Proposals for Action Understanding 2016 ECCV

DAPs提出的主要目的是加快action proposal的速度,同时要提高准确率,如图:

由于action segments的长度不同,在之前的方法中需要设置不同的滑动窗口在多次扫描整个视频,再使用极大似然的方法找到最合适的segment,这种方法运行速度很慢。而DAPs只使用了一个滑窗就可以得到不同尺度的proposal,只对视频处理一遍因此速度是之前算法的10倍。它的具体模型如下:

对于输入的整个视频先使用C3D网络来提取视频的特征,在输入到LSTM网络来把这些特征串联起来,隐藏层h作为这个时间的特征,再使用滑动窗口来扫描整个特征序列,得到预测的action segment并且对每个segment打分。至于如何用一个滑动窗口得到不同尺度的segment,文章使用了anchor机制,anchor的尺度使用k-means聚类来对实际的action segments处理,得到k种尺度的anchor,再得到不同尺度的segment。训练时的公式如下:

损失函数由两部分组成,对segments的match准确率和对这个预测segment的打分,前者要求预测的segment区间尽量拟合真实的区间,后者要求这个区间有尽量高的概率存在action。
实验结果当然是比之前的方法都准确,速度也快很多,同时和action detection结合能提高action detection的性能。
论文链接:http://www.eccv2016.org/files/posters/P-2B-10.pdf

SST: Single-Stream Temporal Action Proposals 2017 CVPR

SST是DAPs方法的改进版,也是由提出DAPs方法的实验室提出的,SST的目的在要求高的准确率和速度的基础上,加上了在尽量少的proposal上得到更准确的action segments。并且和DAPs进行了对比,DAPs虽然可以使用一个滑动窗口得到不同尺度的segment,但是但对每帧进行多次处理,找到最合适的尺度。SST方法可以只对每帧进行一次处理,这样就再次提高了速度。具体模型如下:

和DAPs一样对输入的整个视频先使用C3D网络来提取视频特征,再使用GRU网络来串联这些特征,这里主要考虑到GRU比较于LSTM有更少的参数,因此速度更快。在提取proposal的过程中,对每个时间节点t,以计算以t为终点对多个尺度的区间的置信度c(该区间是否包含action),再使用阈值和非极大值抑制的方法找到最终的proposal。
同时文章还提到由于要处理长视频,容易导致过拟合。为了解决这种方法在训练是使用了密集采样,得到多个训练样本,如图:

每个X都是采样的训练样本,X比action proposal要长,这样对每个时间节点t都进行了多次的训练,从而来减少测试时的过拟合问题,使视频的encoder更加鲁棒。训练的损失函数如下:

对于每一个训练样本X并且终止时间在t时刻,有一个真实的置信度y,和得到的置信度x,使用二类交叉熵损失来得到对样本X的损失。

再加和所有的训练样本和所有的时刻,得到总体的损失。
在实验过程中,进行了三个方面的实验:得到的proposal的准确率、速度和尽量少的proposal。实验结果显示,SST对比之前的方法包括DAPs方法,准确率更高,尤其是在限制更少的proposal的情况下,同时速度更快。并且可以处理长视频,不管是终止时刻t,还是proposal的长度,均可以得到更好的结果。同时和action detection结合也有较大的提升。
论文链接:http://vision.stanford.edu/teaching/cs231n/reports/2017/posters/29.pdf

temporal action proposals论文总结相关推荐

  1. SST:Single-Stream Temporal Action Proposals论文笔记

    SST:Single-Stream Temporal Action Proposals 这是本仙女认认真真读完且把算法全部读懂(其实也不是非常懂)的第一篇论文 CVPR2017 一作 论文写作的动机m ...

  2. 论文阅读:TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals

    TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals 摘要 方法 视频单元处理 剪辑金字塔建模 单元级别时间 ...

  3. Temporal Action Proposal 论文分享

    TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals(ICCV2017) Motivation 实现快速和准 ...

  4. TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals

    Result: Thumos14IoU=0.5时,MAP为25.6% Motivation: 1)之前的S-CNN工作通过sliding windows,划分出proposal区域,为了获得高reca ...

  5. 【论文翻译】 BMN: Boundary-Matching Network for Temporal Action Proposal Generation

    BMN: Boundary-Matching Network for Temporal Action Proposal Generation 边界匹配网络[时序动作提名] 1. Introductio ...

  6. SSN:Temporal Action Detection with Structured Segment Networks

    原文链接: Temporal Action Detection with Structured Segment Networks 本文只是对原文的简单翻译,不对实验过程分析,如有不准确的地方,欢迎指教 ...

  7. [行为识别论文详解]SSN(Temporal Action Detection with Structured Segment Networks)

    SSN发表在ICCV 2017上,题目为:<Temporal Action Detection with Structured Segment Networks>,作者是Yue Zhao, ...

  8. Temporal action localization in untrimmed videos via Multi-stage CNNs SCNN论文阅读笔记

    文章标题:Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs 文章链接:Shou_Temporal_Action ...

  9. Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning 论文赏析

    Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning 论文赏析 前言 Introdu ...

最新文章

  1. 基于Springboot实现图书管理系统
  2. MyBatis框架学习 DAY_02:使用XML配置文件/多参数问题 / FOREACH /IF / #{}和${} / 创建SSM框架流程
  3. GitHub如何下载单个文件夹
  4. 【学术相关】中国计算机学会推荐中文科技期刊目录
  5. UE4学习-设置地图,创建材质
  6. 51nod 1196
  7. 为什么你拼命学,却一无所成?
  8. 生活中的七个语音识别经典应用
  9. java底层app_Java底层类和源码分析系列-ArrayBlockingQueue底层架构和源码分析
  10. 无法打开文件“libboost_system-vc110-mt-gd-x32-1_68.lib”
  11. 2048小程序代码c语言,微信小程序版2048
  12. 凹点匹配 matlab源码,基于凹点搜索的重叠粉体颗粒的自动分离算法
  13. 朱乐睿_校友风采_师范大学企业管理专业
  14. 前端微信支付代码(公众号支付)
  15. MAXIMO语言切换,以及设置多语言
  16. 微信小程序一 全局变量/js使用详解
  17. 【安装PyTorch报错】InvalidArchiveError(‘Error with archive D:\\anaconda\\pkgs\\pytorch-1.2.0-py3.6····
  18. VUE2 组件间传值
  19. Principal Components Analysis
  20. 吉利金刚汽车音响升级牧童Vaquero

热门文章

  1. 3.4.1 3.3.1 3.3.2 企业版/集团版/旗舰版 框架源码 大屏设计 大屏源码 JNPF快速开发平台
  2. 集成电路(ic)的待遇怎么样?
  3. (9)ObjectARX2015 + vs2012创建面域
  4. CSGO搬砖项目详细拆解教程,月入破万长期稳定
  5. C语言中数组名到底是什么?
  6. word查看技巧:如何快速找到文档的修改痕迹
  7. python中object是什么类型_python中类与对象之继承
  8. 【龙虎豹】这绝对是一种观点:关于H5游戏的几个错觉!
  9. JS DOM删除元素
  10. Adobe Illustrator CC 2018安装出现无法读取注册表