G-TAD: Sub-Graph Localization for Temporal Action Detection

论文下载链接：https://arxiv.org/pdf/1911.11462.pdf

1 摘要
对于动作检测而言，视频的文本信息是十分重要的线索之一，但是当前的工作主要集中于时序文本信息（temporal context），而忽视了另一个同样重要的语义文本信息（semantic context）。本文提出通过GCN模型自适应地融合多级语义文本信息，将时序动作检测问题转化为子图定位问题。具体就是将视频snippets作为图节点，将snippet-snippet correlations 作为边, 将于文本相关的动作实例作为目标子图。设计了GCNeXt模块，学习聚合了文本信息的特征，并动态更新图的边。设计了SGAlign layer将子图嵌入欧式空间来定位每一个子图。实验取得了state-of-the-art 的效果。On ActityNet-1.3, average mAP of 34.09%; on THUMOS14, 40.16% in mAP@0.5, 成为最好的one-stage方法。

2 背景
文章的本质和核心就是融入了更多的文本信息。之前也有不少同样的尝试，如a.以特定比例延伸时序边界（如之前组会讲过的前后各延伸proposal长度的1/2、1/5）;b.使用空洞卷积（之前组会也讲过）；c.使用高斯曲线（之前郑师姐组会讲过一次高斯核，19年cvpr）。但这些方法都只利用了时序信息，仅仅是时序上前后的相邻节点信息。而显示世界中视频在时序内容、动作内容、甚至是剪辑风格千差万别，单一的时序信息并不能很好地表示视频内容，甚至可能降低检测的准确度。

3 整体方案

Node：视频小段，
Edges：视频小片段之间的相互关系
Sub-graph：具体的动作实例
Node有4种类型：action, start, end, and background，正如上图中颜色所示。

Edges有2种类型：
1)temporal edges, 是跟据视频片段的时序顺序预先定义的；
2)semantic edges, 是从节点特征中学习到的。

Overview of G-TAD architecture

G-TAD的输入是每个snippet抽帧之后得到的snippet features序列：

每个视频片段的注释：

首先，使用3个GCNeXt模块进行特征提取，这个过程逐步聚合时序信息（temporal context）和多级语义信息（multi-level semantic context）。 Semantic context, 编码成semantic edges，是从每一层GCNeXt特征动态学习得到的。

然后，将3个GCNeXt模块提取的特征送入SGAlign layer，在SGAlign layer中，一系列anchors定义的sub-graphs 被转变成固定尺寸的欧式空间表示。

最后，定位模块获得sub-graphs的得分并排序，然后给出最后的结果。

3.1 GCNeXt block

GCNeXt block是模仿目标检测里的ResNeXt（Aggregated residual transformations for deep neural networks.2017CVPR）设计的，目的是为了获得context-aware features。每个GCNeXt包含2个图卷积流，一个是通过1D卷积在固定的时序相邻节点上操作获取temporal context。另一个是自适应地将semantic context聚合到snippet features。

图中方框数字表示的是(输入通道数，输出通道数)，一共设计了32条路径来增加转变的多样性。
网络最后的输出是将上下两流的32条路径相加再加上一开始的输入，这个思想和ResNeXt很相似。

3.2 Sub-Graph Alignment and Localization
Sub-Graph of Interest Alignment (SGAlign)

SGAlign layer

大部分之前的动作检测器都是对每一个 action anchor进行缩放提取固定尺寸的proposal特征向量，通常对anchor进行线性插值。而本论文中是通过从聚合了文本特征的配准层自适应地提取子图特征，并不依赖于人为的偏好。

L个特征向量，anchor a，我们需要分别从时序和语义图中采样t1、t2个向量，进行配准。配准按以下四步进行：
1）每个snippet通过temporal graph映射回之前的时序顺序；
2）采用如下算法分别从 temporal graph和semantic graph获取t1、t2个向量；

3）将每一个节点的特征用它的动态相邻节点的平均特征来代替，然后重复1）、2）步操作来进一步提取semantic context；
4）将t1和t2向量级联作为配准层的输出；

4 Training G-TAD

4.1 Sub-Graph Localization Loss：

4.2 Node Classification Regularizer：

4.3 最后的整体损失函数为：

5 实验结果

推荐阅读：
ActivityNet数据集简介及下载分享(百度网盘)
BSN: Boundary-Sensitive Network for Temporal Action Proposal Generation

G-TAD: Sub-Graph Localization for Temporal Action Detection相关推荐

PBRNet:Progressive Boundary Refinement Network for Temporal Action Detection （AAAI 2020）
PBRNet:Progressive Boundary Refinement Network for Temporal Action Detection AAAI 2020 中国科学技术大学欢迎感兴 ...
[行为识别论文详解]SSN(Temporal Action Detection with Structured Segment Networks)
SSN发表在ICCV 2017上,题目为:<Temporal Action Detection with Structured Segment Networks>,作者是Yue Zhao, ...
SSN：Temporal Action Detection with Structured Segment Networks
原文链接: Temporal Action Detection with Structured Segment Networks 本文只是对原文的简单翻译,不对实验过程分析,如有不准确的地方,欢迎指教 ...
SSN—《Temporal Action Detection with Structured Segment Networks》概述
<Temporal Action Detection with Structured Segment Networks>概述引言: 最近阅读了本篇发表在ICCV'17上关于Action ...
STPP[时间金字塔池化]||SSN(Temporal Action Detection with Structured Segment Networks)时间动作定位
看完SSN网络其中一个重点就是文章所提出的STPP结构.文章或者有些解读对于我们这种初学者来说可能有一点点理解难度,特别是对于L和Bl这些参数,我看到有些网上的解释写的有些歧义.但实际上只要结合SPP ...
P-GCN：Graph Convolutional Networks for Temporal Action Localization 2019 ICCV
论文下载链接:https://arxiv.org/pdf/1911.11462.pdf 1 摘要大多数最先进的行为定位系统都是单独处理每个动作proposal,而不是在学习过程中显式地利用它们之间的 ...
BSN: Boundary-Sensitive Network for Temporal Action Proposal Generation
转自BSN作者林天威知乎:https://zhuanlan.zhihu.com/p/39327364,用于学习交流. 前言这篇笔记主要介绍我们录用于ECCV 2018上的论文: "BSN: ...
时序动作检测《BSN: Boundary Sensitive Network for Temporal Action Proposal Generation》
时序动作检测SSAD<Single Shot Temporal Action Detection>_程大海的博客-CSDN博客_时序动作检测时序动作检测<BSN: Boundary ...
【论文翻译】 BMN: Boundary-Matching Network for Temporal Action Proposal Generation
BMN: Boundary-Matching Network for Temporal Action Proposal Generation 边界匹配网络[时序动作提名] 1. Introductio ...

G-TAD: Sub-Graph Localization for Temporal Action Detection

G-TAD: Sub-Graph Localization for Temporal Action Detection相关推荐

最新文章

热门文章