最近遇到同一环境下,拍摄多张图片,检测结果存在差异的问题,故调研,考虑使用融合多帧信息去解决上述问题,发现这篇论文,该算法适用于我当前的问题,更适用于从事监控领域的同学,算法细节不赘述,看算法主体思路:

算法前半部分与双阶段RPN网络基本无异, 只是输入为多帧图片,得到若干anchor box的featrues,其中关键帧提取出n个,关键帧与其他帧共m个,此处双阶段检测相比于单阶段在视频信息融合上体现出了优势,即可以提取语义特征后接融合算法,接下来就是融合RPN的信息,论文中使用了attention机制,为了减少运算和存储负担,先对RPN特征进行pooling,此处操作和SEblock很像,之后通过前向得到q,k,v,q由关键帧得到,字典k则由所有帧(上下文帧以及关键帧)前向得到,接下来的操作在我看来具有很强的可解释性,通过q与k相乘,很好的查找了上下文特征与关键帧特征相关联的信息,并得到高权重,最后对v加权,投影后再叠加到关键帧的RPN特征上。

这种通过attention融合第一阶段特征进行视频分析相似的论文还有Object Detection in Video with Spatial-temporal Context Aggregation,Memory Enhanced Global-Local Aggregation for Video Object Detection,在我看来这几篇基本是一个意思,但谷歌的这篇论文写的不错,另外两篇notation满天飞,看着烦,只粗读

Context R-CNN一种基于注意力机制的视频检测算法相关推荐

  1. 论文浅尝 | 用于学习知识图谱嵌入的一种基于注意力机制的新型异构 GNN 框架HRAN...

    笔记整理 | 李爽,天津大学 链接:http://hfbix45521e79b0484907sowxo0fubpp9b6xwx.fiiz.eds.tju.edu.cn/stamp/stamp.jsp? ...

  2. 空间注意力机制sam_一种基于注意力机制的神经网络的人体动作识别方法与流程...

    本发明属于计算机视觉领域,具体来说是一种基于注意力机制的神经网络的人体动作识别的方法. 背景技术: 人体动作识别,具有着非常广阔的应用前景,如人机交互,视频监控.视频理解等方面.按目前的主流方法,可主 ...

  3. 小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法...

    雷锋网(公众号:雷锋网) AI 科技评论按:小米近期发布了自己的 AI 音箱,加入了智能家居的战局.正当我们觉得小米会不会只是蹭"人工智能"热点的时候,小米的这篇论文证明了自己真的 ...

  4. Talk预告 | 腾讯AI Lab研究员童湛南京大学谈婧:基于注意力机制的视频自监督表示学习和时序动作检测

    本期为TechBeat人工智能社区第465期线上Talk! 北京时间12月22日(周四)20:00,腾讯AI Lab研究员--童湛&南京大学计算机科学与技术系硕士研究生--谈婧的Talk将准时 ...

  5. mpeg b帧 编码 matlab,一种基于压缩域的镜头检测算法

    文章编号: 1673- 5196( 2008) 06- 0097- 05 一种基于压缩域的镜头检测算法 摘要: 针对传统的非压缩域镜头检测算法数据量大.运算量大和效率低的缺点, 提出一种基于压缩域的镜 ...

  6. 4种基于像素分割的文本检测算法

    摘要:文本检测是文本读取识别的第一步,对后续的文本识别有着重大的影响.一般场景下,可以通过对通用目标检测算法进行配置修改,来实现对文本行的检测定位.本文主要介绍基于像素分割的文本检测算法. 本文分享自 ...

  7. 基于注意力机制的lstm实现_一种基于注意力机制的自动标点引擎的测试体验

    报告 我们基于深度学习的自动标点引擎,在合作团队的帮助下实现于2018年,论文已在今年发表.当时使用循环神经网络(RNN)中的双向长短时记忆(Bi-LSTM)作为特征提取器.这几年来,注意力机制开始取 ...

  8. keras cnn注意力机制_2019 SSA-CNN(自注意力机制)目标检测算法论文阅读笔记

    背景 <SSA-CNN Semantic Self-Attention CNN for Pedestrian Detection>是2019 的工作,其作者来自于南洋理工.这篇文章主要是做 ...

  9. 【文献阅读笔记】之基于注意力机制的深度学习路面裂缝检测

    中文,计算机辅助设计与图形学学报,第 32 卷 第 8 期,2020 年 8 月. DOI: 10.3724/SP.J.1089.2020.18059 摘要: 为实现自动准确地检测路面裂缝, 提升路面 ...

最新文章

  1. PingCode 是用来干嘛的?
  2. RESTful三理解
  3. sql 分组统计 面试题
  4. 功率放大器的有记忆失真特性
  5. 网易NAPM Andorid SDK实现原理--转
  6. android自动化测试工具之monkey
  7. Windows 10 常用的快捷键及常用指令
  8. 完全无人驾驶量产车Apollo Moon威马版首秀 成本降一半、能力翻10倍
  9. 【AI视野·今日Robot 机器人论文速览 第十三期】Wed, 23 Jun 2021
  10. 情怀再次输给现实!中国式星巴克,如今亏到连租金都交不起
  11. 史上最全的OpenCV入门教程
  12. 华为手机服务器位置,华为手机怎么查看云服务器地址
  13. Struts 2教程
  14. Revisiting Graph Contrastive Learning from the Perspective of Graph Spectrum
  15. Life:歌曲学习之教一个不会唱歌的人学会唱出《情非得已》、《海阔天空》、《红日》、《老男孩》等歌曲
  16. 昆石网络 VOS3000虚拟运营支撑系统任意文件读取漏洞
  17. java类的各访问级别,Java构造函数具有比其类更宽的访问级别
  18. 微服务系统设计(一) -- 如何拆分服务
  19. c语言入门——三子棋(N子棋)
  20. flutter bloc记录

热门文章

  1. JavaScript实现数字金额小写转大写
  2. UML-封神之路的开始
  3. 成功鲜有偶然:一览IT名人的教育成长经历
  4. Charles抓包遇到Not allowed POST https://xxxxxxxxxxx/xxxxxxxxxx connection dropped
  5. MATLAB铁轨检测+异物识别
  6. 《设计模式》设计模式的基本原则
  7. PM2.5传感器通过树莓派推送到ThingsPanel
  8. 基于忆阻器的神经网络应用研究!道翰天琼认知智能机器人平台API接口大脑为您揭秘。
  9. Three.js入门教程
  10. C语言顺序表,合并并排序(代码注释讲解)