文章目录

  • 0. 前言
  • 1. 要解决什么问题
  • 2. 用了什么方法
  • 3. 效果如何
  • 4. 还存在什么问题

0. 前言

  • 相关资料:

    • arxiv
    • github
    • 论文解读
  • 论文基本信息
    • 领域:行为识别
    • 作者单位:港中文&商汤
    • 发表时间:CVPR 2020
  • 一句话介绍:在普通行为识别网络中添加一个类似于FPN的neck,连接backbone和后续分类head,提高特征提取效率。

1. 要解决什么问题

  • 本文主要讨论视觉速率“visual tempo”(也可以翻译为节奏)的概念。
  • 什么是 visual tempo:做动作的节奏/速率。如下图
    • intra class:在同一类型,不同样本中速率不同。
    • inter class:不同类型类型样本的速率不同。
    • 不同行为,tempo的变化程度不同:所有的剪羊毛样本都差不多速率,不同的“后空翻”速率差别很大。
    • 下图中, 纵坐标就是intra class的大小,不同柱形就是不同类别样本,柱形长短不同就是inter class
  • 如何理解:visual tempo可以理解为行为在时间尺度上特征,或者说行为的动态特征。
  • 以前用于提取 visual tempo 的方法主要是通过不同帧率获取原始帧,构建 input-level frame pyramid
    • 基本流程就如SlowFast,不同速率的样本通过不同的backbone处理,然后做特征融合,最后用于行为识别。
    • 这种方法太耗时,效率不够高。
    • 由于这种方法需要预先设置帧率,所以有一些限制。
    • 希望能有 feature-level的特征提取方法(感觉有点类似于检测里的FPN),既能提取visual tempo,又能节约性能。
  • 整体网络结构借鉴了ResNet50-I3D

2. 用了什么方法

  • 提出了一个即插即用的模块 Temporal Pyramid Network

    • 灵感来源:同一模型不同深度的网络都已经提取了不同tempo的特征。详细点说,由于视频数据的特征图一般尺寸为 BATCH_SIZE, T, C, H, W,那么不同的T就代表了不同的帧率。
  • 下图中的各个模块简单介绍
    • Collection of Hierarchical Features

      • 方法一:没有FPN,获取一个特征图,以特征图中的T通道作为基础,按照不同“帧率”选择BATCH_SIZE, C, H, W特征图。与下图展示不同。
      • 方法二:有FPN,根据不同层特征图拥有不同的通道T,作为不同帧率作为后续输入。
    • Spatial Semantic Modulation:大概意思是,从backbone获取的不同深度的空间语义特征不一致(猜测就是C, T, H, W尺寸不一致,具体要看源码),通过卷积操作设置为相同尺寸。如下图中,这一层的结果的尺寸完全相同。
    • Temporal Rate Modulation:就是获取不同帧率的特征图。这一步应该就是所谓的。
    • Information Flow:特征融合
  • 特征融合的方式

3. 效果如何

  • 在Kinetics-400/Something-Something-V1 & V2/Epic-Kitchen三个数据集上能够稳步提升性能。

  • 对于tempo变化较大的行为类别,性能提高效果较好。

4. 还存在什么问题

  • 一看到Pyramid就知道,这类模型肯定不能用于算力不行的设备里了……其实mmaction2里有,到时候可以测试一下性能。

行为识别 - Temporal Pyramid Network for Action Recognition相关推荐

  1. 《Temporal Pyramid Network for Action Recognition》算法详解

    文章地址:<Temporal Pyramid Network for Action Recognition> 代码地址:https://github.com/decisionforce/T ...

  2. 【PaddlePaddle论文复现营】Temporal Pyramid Network for Action Recognition

    [PaddlePaddle论文复现营]Temporal Pyramid Network for Action Recognition 写在前面的话 论文简介 从视频分类领域中的一个痛点谈起 相关工作 ...

  3. Temporal Pyramid Network for Action Recognition(CVPR2020)

    Abstract 视觉节奏表征了动作的动态和时间尺度.对不同动作的这种视觉节奏进行建模有助于动作的识别.以前的工作通常通过以多种速率采样原始视频,并构建输入级帧金字塔来捕获视觉节奏,而帧金字塔通常需要 ...

  4. Temporal Pyramid Network(TPN 笔记)

    https://zhuanlan.zhihu.com/p/172136901 <Temporal Pyramid Network for Action Recognition>阅读笔记 A ...

  5. Temporal Segment Networks for Action Recognition in Videos 用于动作识别的时序分割网络

    Temporal Segment Networks for Action Recognition in Videos 用于动作识别的时序分割网络 本文原创,欢迎转载 https://blog.csdn ...

  6. paper reading:Part-based Graph Convolutional Network for Action Recognition

    paper reading:Part-based Graph Convolutional Network for Action Recognition 文章目录 paper reading:Part- ...

  7. 视频动作识别--Two-Stream Convolutional Networks for Action Recognition in Videos

    Two-Stream Convolutional Networks for Action Recognition in Videos NIPS2014 http://www.robots.ox.ac. ...

  8. 行为识别 - ACTION-Net: Multipath Excitation for Action Recognition

    文章目录 0. 前言 1. 要解决什么问题 2. 用了什么方法 3. 效果如何 4. 还存在什么问题&可借鉴之处 0. 前言 相关资料: arxiv github 论文解读 论文基本信息 领域 ...

  9. 行为识别论文笔记|TSN|Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

    行为识别论文笔记|TSN|Temporal Segment Networks: Towards Good Practices for Deep Action Recognition Temporal ...

  10. RA-GCN:Richly Activated Graph Convolutional Network for Robust Skeleton-based Action Recognition

    Richly Activated Graph Convolutional Network for Robust Skeleton-based Action Recognition TCSVT2020 ...

最新文章

  1. mongodb关联查询 和spring data mongodb
  2. “第三届中国行业互联网大会暨CIO班12周年年会”成功举行
  3. poj 2392 Space Elevator
  4. spring boot actuator工作原理之http服务暴露源码分析
  5. fixture.detectChange开始单步调试,如何执行到Directive的ngAfterViewInit钩子
  6. 看printk引发的一点思考
  7. HTML map元素
  8. php发送http put/patch/delete请求
  9. 免费WEB打印控件—PAZU
  10. Redis 可视化工具 Redis Desktop Manager 和 treeNMS 的使用
  11. 计算机毕设 SpringBoot+Vue车辆租赁管理系统 网上汽车租赁系统 汽车租赁管理系统 汽车分时租赁系统Java Vue MySQL数据库 远程调试 代码讲解
  12. 免费图片识别文字软件-办公利器
  13. vue项目中实现汉字转拼音缩写
  14. 噩梦系列篇之Player随鼠标转向控制
  15. 磁簧开关/干簧管传感器原理
  16. Linux中C语言标准库glibc源码下载
  17. 基于LEACH的随机网络生成无线传感器网络路由协议的仿真比较(Matlab代码实现)
  18. 破解百度网盘下载速度
  19. Linux下fdisk格式化TF卡,创建分区
  20. 202203电子学会青少年软件编程python三级真题

热门文章

  1. 如何卸载阿里巴巴PC流氓软件
  2. ORACLE 数据泵之NETWORK_LINK
  3. Spring 源码解析 七(aop )
  4. U盘重装Win10系统视频教程
  5. 罗振宇2018“时间的朋友”跨年演讲未删减全文
  6. stm32 USB HID多点触摸屏上报安卓触摸信号
  7. TM32F103C8T6(晶振电路,复位电路,调试下载串口详解)
  8. linux免费邮件服务器,Linux 电子邮件服务器的搭建
  9. UNet 、3D-UNet 、VNet 区别
  10. 用python计算圆环面积公式_圆环的计算公式,一看就懂的