Dense-Captioning Events in Videos

info

project page http://cs.stanford.edu/people/ranjaykrishna/densevid/

文章做了以下几个工作:

  • a new model:

    • identify all events in a single pass of the video
    • describing the detected events with natural language
    • a variant of an existing proposal module that is designed to capture both short as well as long events that span minutes.
  • 捕捉事件之间的依赖关系:a new captioning module that uses contextual information from past and future events to jointly describe all events(采用上下文信息)

  • 提供数据集 ActivityNet Captions

Dense-captioning events model

Goal : design an architecture that

  • jointly localizes temporal proposals of interest
  • and then describes each with natural language.

Input: sequence of videoframes
Output: a set of sentences(且包含起止时间)

Event proposal module

framework:先把视频序列输入C3D得到特征,送入proposal module(就是DAPs),得到proposal(包含起始时间、分数、hidden representation hih_i),分数超过阈值的proposal就可以送入language model,通过hidden representation进行video captioning,输出对于每个event的描述。

对DAPs的更改:We do not modify the training of DAPs and only change the model at inference time by outputting K proposals at every time step, each proposing an event with offsets.

While traditional DAPs uses non-maximum suppression to eliminate overlapping outputs, we keep them separately and treat them as individual events。

Captioning module with context

从时间上下文获取信息,对于一个事件来说,把所有其他时间都划分为两类:past和future,如果是cocurrent的时间,那么在当前事件结束前就结束划分为past,否则future。past和future的表示如下:

hjh_j是其他时间的hidden representation
最终得到的特征表达(hpasti,hi,hfuturei)(h_i^{past},h_i,h_i^{future})送入LSTM,最终得到视频的描述。

实现细节

loss:两个loss,one for proposal,another for captioning model。总的loss:

L=λ1Lcap+λ2Lprop

L=\lambda_1L_{cap}+\lambda_2L_{prop}
其中 λ1=1.0\lambda_1=1.0, λ2=0.1\lambda_2=0.1

训练和优化:

  • train our full densecaptioning model by alternating between training the language model and the proposal module every 500 iterations.
  • first train the captioning module by masking all neighboring events for 10 epochs before adding in the context features.
  • initialize all weights using a Gaussian with standard deviation of 0:01.
  • stochastic gradient descent with momentum 0:9 to train.
  • learning rate : 0.01 for the language model and 0.001 for the proposal module.
  • For efficiency, we do not finetune the C3D feature extraction.
  • training batch-size is set to 1
  • We cap all sentences to be a maximum sentence length of 30 words

    PyTorch 0.1.10.
    One mini-batch runs in approximately 15:84 ms on a Titan X GPU and it takes 2 days for the model to converge.

Dense-Captioning Events in Videos相关推荐

  1. 港大南科大提出端到端PDVC,用DETR的方法做Dense Video Captioning!简化训练流程

    关注公众号,发现CV技术之美 ▊ 写在前面 密集视频字幕(Dense Video Captioning)的目的是从视频中生成多个与其时间位置相关的字幕.以前的方法遵循一个复杂的"先定位再描述 ...

  2. Image Captioning概述

    目录 任务描述 应用领域 主要问题 主流框架 常用数据集 Metrics Metrics的部分内容参考自知乎 任务描述 输入:图片III 输出:由 nnn个单词组成的图片内容描述S={s1,...,s ...

  3. 人大提出新模型,将Two Stage的Video Paragraph Captioning变成One Stage,性能却没下降...

    关注公众号,发现CV技术之美 0 写在前面 视频段落字幕(Video paragraph captioning)的目的是在未修剪的视频中描述多个事件.现有的方法主要通过事件检测和事件字幕两个步骤来解决 ...

  4. Real-world Anomaly Detection in Surveillance Videos监控视频中的现实世界异常检测

    监控视频中的现实世界异常检测,代码地址https://paperswithcode.com/paper/real-world-anomaly-detection-in-surveillance. 摘要 ...

  5. CVPR 2021 论文和开源项目合集(Papers with Code)

    摘自:https://github.com/amusi/CVPR2021-Papers-with-Code CVPR 2021 论文和开源项目合集 CVPR 2021 论文和开源项目合集(Papers ...

  6. AAAI-19录用论文清单

    AAAI-19于1月27日在夏威夷召开,今年是33届会议. 会议录用论文清单, workshop16个,tutorials24个. 标题的词云分析: 作者单位词云(按作者人数计算/一篇文章可能有多个作 ...

  7. 【今日CV 计算机视觉论文速览 第132期】Tue, 18 Jun 2019

    今日CS.CV 计算机视觉论文速览 Tue, 18 Jun 2019 Totally 64 papers ?上期速览✈更多精彩请移步主页 Interesting: ?****MMDetection, ...

  8. ECCV2022论文列表(中英对照)

    Paper ID Paper Title 论文标题 8 Learning Uncoupled-Modulation CVAE for 3D Action-Conditioned Human Motio ...

  9. 论文阅读:CVPR2016 Paper list

    原文地址:http://blog.csdn.net/xizero00/article/details/51386667 在过几天CVPR2016就要召开了,先放个list. ORAL SESSION ...

最新文章

  1. python源码精要(10)-python源代码阅读概要(1)
  2. 计算机网络与社会需求,计算机网络的技术论文计算机网络与社会需求.doc
  3. java mainclass_java – 无法加载Main-Class清单属性
  4. sed替换html标签,sed多次替换
  5. Vue中data数据变化 -- 页面重新渲染的问题
  6. 计算机专业社会调研怎么写,计算机专业调研论文提纲格式 计算机专业调研论文提纲怎么写...
  7. 计算机图形学【GAMES-101】12、相机(视场、曝光、光圈(F-Stop)、薄棱镜近似、CoC、景深)
  8. 完善智慧办公建设,小熊U租获京东数千万元A+轮融资...
  9. 俄亥俄大学计算机科学系,俄亥俄大学课程及专业设置
  10. 多个分析视角的数据多维分析图表该如何制作?
  11. Scan Context回环检测解读和使用
  12. 思迅软锁安装配置说明
  13. 小程序获取链接中的参数
  14. android 中文网站
  15. canvas基本使用,以及七巧板绘制
  16. 使用layui做二级菜单,选父级必选子级
  17. win10pe系统计算机名修改,如何修改Win10管理员名称
  18. java switch 条件_Java ——if条件语句 switch语句
  19. 【Python 爬虫小项目 01】租房数据
  20. 传奇 由指定地图进入下一层地图脚本

热门文章

  1. Red Pitaya WiFI连接
  2. CAD图纸打印成PDF,字体间距变宽或显示不全的完美解决方法
  3. 大数据展示 定位_怎么用大数据精准定位客户,实现高效营销?
  4. 408知识框架总结——计算机组成原理
  5. 使用深度双向LSTM模型构造社区问答系统
  6. 计算机重装系统 英语,解决如何重装win7旗舰版英文
  7. 奥村模型计算机仿真,实验3Okumura-Hata方法计算计算机仿真.pdf
  8. 作为一个安全措施,windows 不允许对这台计算机进行远程访问,打印机共享设置及常见问题...
  9. cocos2dx Android接入芒果插屏广告
  10. 12个高矮不同的人,排成两排,每排必须是从矮到高排列,而且第二排比对应的第一排的人 高,问排列方式有多少种?