2020-既看，又听：在弱监督下学习多模态暴力检测

Not only Look, but also Listen: Learning Multimodal Violence Detection under Weak Supervision

本文的贡献：

1.发布了一个名为XD-Violence的多模式暴力数据集，其中包含4754个未修剪的视频，涵盖了六种常见的暴力类型。据我们所知，XD暴力是迄今为止规模最大的暴力数据集，总计217小时。与以前的数据集不同，XD-Violence的视频是从多种场景中捕获的，例如电影和YouTube。
2.引入了HL-Net来同时捕获远程关系和局部距离关系，这两个关系分别基于相似性优先级和邻近优先级。此外，我们还提出了用于在线检测的HLC近似器。基于此，我们使用分数分支动态获取额外的整体关系。
3.我们进行了广泛的实验以验证我们提出的方法的有效性，并且在两个基准（即XD-暴力（Ours）和UCF-Crime）上，我们的方法显示出明显优于现有基准的优势。此外，实验结果还证明了与单峰相比，多峰信息的优越性。

介绍

数据集6种暴力类别：虐待、车祸、爆炸、战斗、暴动、射击。共有4754个视频，2405个暴力视频和2349个非暴力视频。3954训练集，800测试机（500暴力、300非暴力）由于暴力事件的同时发生，我们还为每个暴力视频分配了多个暴力标签（1≤＃labels≤3）。

大多数方法都假设剪辑良好的视频，暴力事件几乎持续整个视频。然而，这些解决方案将其范围限制在短片段中，并且不能概括为在未经剪辑的视频中定位暴力事件，因此在实践中使用有限。
解决暴力检测问题的一小步是开发专注于未剪辑视频的算法。例如中世纪的暴力场景探测（VSD）任务[4]和战斗探测器[29]。
作者将弱监督暴力检测视为多实例学习（MIL）任务，也就是将一个视频转换为一个包，其中包含多个实例（片段），并通过包级标签学习实例级注释。以此来弥补弱标签。因此，作者提出了一个完整的局部网络（HL-Net），该网络显式地利用片段之间的关系，基于这些关系学习强大的表示，其中整体分支通过片段的相似性先验来捕获长程依赖性，局部分支对局部邻域内的短程交互进行建模。由于HL-Net需要整个视频来计算片段之间的关系，所以引入了一个在线暴力检测的整体局部线索（HLC）逼近器。HLC只处理一个局部邻域，学习HL-Net指导下的精准预测。HLC引入了一个与整体分支和局部分支并行的动态评分分支，该分支通过所有特征的加权和计算某一位置的响应，权重取决于预测的评分。

数据集

作者将自己的数据集与其他数据集进行比较：
总体来说，作者的数据集有三个很好的特点：1）规模大，有利于训练可推广的暴力检测方法；2）场景多样性，使得暴力检测方法能够主动应对复杂多样的环境，更具鲁棒性；3）包含音频信号，使算法利用多模态信息和更多的信心。

方法

融合

提取视音特征矩阵为Xvi，Xai，i为第i个片段。通过级联融合方法，将Xv和Xa在通道中串联，然后通过两个堆叠的全连接层，512和128节点，每个FC层后跟ReLU和dropout。最后将输出作为融合特征，用XF表示。

实验

视频特征：使用了两个主流网络作为视觉特征提取器fv，即C3D[37]和I3D[3]网络。我们从Sports-1M数据集预训练的C3D中提取fc6特征，从dynamics-400数据集预训练的I3D中提取全局池特征。I3D是一个双流模型，因此，视觉特征有两个版本，RGB和光流。
音频特征：由于VGGish[6,17]网络在音频分类方面的卓越性能，我们利用在大型YouTube数据集上预训练的VGGish[6,17]网络作为fa的音频特征提取器。
HL-Net体系结构：广义HL网络由整体分支、局部分支和附加分数分支组成。每个分支是两层的堆栈，其中每层的输出通道数为32。此外，受[16,32,21]的启发，我们为每一层增加了一个残差连接，使得GCN在训练阶段能够可靠地收敛

默认使用I3D的RGB特征和VGGish特征的融合

2020-既看，又听：在弱监督下学习多模态暴力检测相关推荐

RSE2020/云检测：基于弱监督深度学习的高分辨率遥感图像精确云检测
RSE2020/云检测:Accurate cloud detection in high-resolution remote sensing imagery by weakly supervised ...
【技术综述】基于弱监督深度学习的图像分割方法综述
文章首发于微信公众号<有三AI> [技术综述]基于弱监督深度学习的图像分割方法综述本文是基于弱监督的深度学习的图像分割方法的综述,阐述了弱监督方法的原理以及相对于全监督方法的优势,首发 ...
基于弱监督深度学习的医学图像分割方法综述
基于弱监督深度学习的医学图像分割方法综述摘要:基于深度学习的医学影像分割尽管精度在不断的提升,但是离不开大规模的高质量标注数据的训练,被称为弱监督学习的深度学习的一个分支正在帮助医生通过减少对完整和 ...
综述：弱监督下的异常检测算法
一.前言文章标题是: Weakly Supervised Anomaly Detection: A Survey 这是一篇针对"弱监督"异常检测的综述. 其中弱监督异常检测简称 ...
「技术综述」基于弱监督深度学习的图像分割方法综述
https://www.toutiao.com/a6713527528251720200/ 本文是基于弱监督的深度学习的图像分割方法的综述,阐述了弱监督方法的原理以及相对于全监督方法的优势. 作者 | ...
【技术综述】基于弱监督深度学习的图像分割方法综述
本文是基于弱监督的深度学习的图像分割方法的综述,阐述了弱监督方法的原理以及相对于全监督方法的优势. 作者 | 孙叔桥编辑 | 言有三 1 基础概念生活中,我们和周围的事物都是有"标签&q ...
弱监督深度学习图像分割综述
本文是基于弱监督的深度学习的图像分割方法的综述,阐述了弱监督方法的原理以及相对于全监督方法的优势. 作者 | 孙叔桥编辑 | 言有三 1 基础概念生活中,我们和周围的事物都是有"标签&q ...
论文阅读【用监督对比学习建模域外检测(OOD Detection) 的鉴别表示】
论文题目:Modeling Discriminative Representations for Out-of-Domain Detection with Supervised Contrastive ...
【汇总】行为识别、时序行为检测、弱监督行为检测、时空行为定位论文代码（持续更新！！！）
视频行为识别与轻量化网络的前沿论文.代码等 https://zhuanlan.zhihu.com/c_1207774575393865728 CVPR 2020 行为识别/视频理解论文汇总 https ...

2020-既看，又听：在弱监督下学习多模态暴力检测

本文的贡献：

介绍

数据集

方法

融合

实验

2020-既看，又听：在弱监督下学习多模态暴力检测相关推荐

最新文章

热门文章