Dense-Captioning Events in Videos
Dense-Captioning Events in Videos
info
project page http://cs.stanford.edu/people/ranjaykrishna/densevid/
文章做了以下几个工作:
a new model:
- identify all events in a single pass of the video
- describing the detected events with natural language
- a variant of an existing proposal module that is designed to capture both short as well as long events that span minutes.
捕捉事件之间的依赖关系:a new captioning module that uses contextual information from past and future events to jointly describe all events(采用上下文信息)
- 提供数据集 ActivityNet Captions
Dense-captioning events model
Goal : design an architecture that
- jointly localizes temporal proposals of interest
- and then describes each with natural language.
Input: sequence of videoframes
Output: a set of sentences(且包含起止时间)
Event proposal module
framework:先把视频序列输入C3D得到特征,送入proposal module(就是DAPs),得到proposal(包含起始时间、分数、hidden representation hih_i),分数超过阈值的proposal就可以送入language model,通过hidden representation进行video captioning,输出对于每个event的描述。
对DAPs的更改:We do not modify the training of DAPs and only change the model at inference time by outputting K proposals at every time step, each proposing an event with offsets.
While traditional DAPs uses non-maximum suppression to eliminate overlapping outputs, we keep them separately and treat them as individual events。
Captioning module with context
从时间上下文获取信息,对于一个事件来说,把所有其他时间都划分为两类:past和future,如果是cocurrent的时间,那么在当前事件结束前就结束划分为past,否则future。past和future的表示如下:
hjh_j是其他时间的hidden representation
最终得到的特征表达(hpasti,hi,hfuturei)(h_i^{past},h_i,h_i^{future})送入LSTM,最终得到视频的描述。
实现细节
loss:两个loss,one for proposal,another for captioning model。总的loss:
L=\lambda_1L_{cap}+\lambda_2L_{prop}
其中 λ1=1.0\lambda_1=1.0, λ2=0.1\lambda_2=0.1
训练和优化:
- train our full densecaptioning model by alternating between training the language model and the proposal module every 500 iterations.
- first train the captioning module by masking all neighboring events for 10 epochs before adding in the context features.
- initialize all weights using a Gaussian with standard deviation of 0:01.
- stochastic gradient descent with momentum 0:9 to train.
- learning rate : 0.01 for the language model and 0.001 for the proposal module.
- For efficiency, we do not finetune the C3D feature extraction.
- training batch-size is set to 1
We cap all sentences to be a maximum sentence length of 30 words
PyTorch 0.1.10.
One mini-batch runs in approximately 15:84 ms on a Titan X GPU and it takes 2 days for the model to converge.
Dense-Captioning Events in Videos相关推荐
- 港大南科大提出端到端PDVC,用DETR的方法做Dense Video Captioning!简化训练流程
关注公众号,发现CV技术之美 ▊ 写在前面 密集视频字幕(Dense Video Captioning)的目的是从视频中生成多个与其时间位置相关的字幕.以前的方法遵循一个复杂的"先定位再描述 ...
- Image Captioning概述
目录 任务描述 应用领域 主要问题 主流框架 常用数据集 Metrics Metrics的部分内容参考自知乎 任务描述 输入:图片III 输出:由 nnn个单词组成的图片内容描述S={s1,...,s ...
- 人大提出新模型,将Two Stage的Video Paragraph Captioning变成One Stage,性能却没下降...
关注公众号,发现CV技术之美 0 写在前面 视频段落字幕(Video paragraph captioning)的目的是在未修剪的视频中描述多个事件.现有的方法主要通过事件检测和事件字幕两个步骤来解决 ...
- Real-world Anomaly Detection in Surveillance Videos监控视频中的现实世界异常检测
监控视频中的现实世界异常检测,代码地址https://paperswithcode.com/paper/real-world-anomaly-detection-in-surveillance. 摘要 ...
- CVPR 2021 论文和开源项目合集(Papers with Code)
摘自:https://github.com/amusi/CVPR2021-Papers-with-Code CVPR 2021 论文和开源项目合集 CVPR 2021 论文和开源项目合集(Papers ...
- AAAI-19录用论文清单
AAAI-19于1月27日在夏威夷召开,今年是33届会议. 会议录用论文清单, workshop16个,tutorials24个. 标题的词云分析: 作者单位词云(按作者人数计算/一篇文章可能有多个作 ...
- 【今日CV 计算机视觉论文速览 第132期】Tue, 18 Jun 2019
今日CS.CV 计算机视觉论文速览 Tue, 18 Jun 2019 Totally 64 papers ?上期速览✈更多精彩请移步主页 Interesting: ?****MMDetection, ...
- ECCV2022论文列表(中英对照)
Paper ID Paper Title 论文标题 8 Learning Uncoupled-Modulation CVAE for 3D Action-Conditioned Human Motio ...
- 论文阅读:CVPR2016 Paper list
原文地址:http://blog.csdn.net/xizero00/article/details/51386667 在过几天CVPR2016就要召开了,先放个list. ORAL SESSION ...
最新文章
- python源码精要(10)-python源代码阅读概要(1)
- 计算机网络与社会需求,计算机网络的技术论文计算机网络与社会需求.doc
- java mainclass_java – 无法加载Main-Class清单属性
- sed替换html标签,sed多次替换
- Vue中data数据变化 -- 页面重新渲染的问题
- 计算机专业社会调研怎么写,计算机专业调研论文提纲格式 计算机专业调研论文提纲怎么写...
- 计算机图形学【GAMES-101】12、相机(视场、曝光、光圈(F-Stop)、薄棱镜近似、CoC、景深)
- 完善智慧办公建设,小熊U租获京东数千万元A+轮融资...
- 俄亥俄大学计算机科学系,俄亥俄大学课程及专业设置
- 多个分析视角的数据多维分析图表该如何制作?
- Scan Context回环检测解读和使用
- 思迅软锁安装配置说明
- 小程序获取链接中的参数
- android 中文网站
- canvas基本使用,以及七巧板绘制
- 使用layui做二级菜单,选父级必选子级
- win10pe系统计算机名修改,如何修改Win10管理员名称
- java switch 条件_Java ——if条件语句 switch语句
- 【Python 爬虫小项目 01】租房数据
- 传奇 由指定地图进入下一层地图脚本
热门文章
- Red Pitaya WiFI连接
- CAD图纸打印成PDF,字体间距变宽或显示不全的完美解决方法
- 大数据展示 定位_怎么用大数据精准定位客户,实现高效营销?
- 408知识框架总结——计算机组成原理
- 使用深度双向LSTM模型构造社区问答系统
- 计算机重装系统 英语,解决如何重装win7旗舰版英文
- 奥村模型计算机仿真,实验3Okumura-Hata方法计算计算机仿真.pdf
- 作为一个安全措施,windows 不允许对这台计算机进行远程访问,打印机共享设置及常见问题...
- cocos2dx Android接入芒果插屏广告
- 12个高矮不同的人,排成两排,每排必须是从矮到高排列,而且第二排比对应的第一排的人 高,问排列方式有多少种?