Context R-CNN一种基于注意力机制的视频检测算法
最近遇到同一环境下,拍摄多张图片,检测结果存在差异的问题,故调研,考虑使用融合多帧信息去解决上述问题,发现这篇论文,该算法适用于我当前的问题,更适用于从事监控领域的同学,算法细节不赘述,看算法主体思路:
算法前半部分与双阶段RPN网络基本无异, 只是输入为多帧图片,得到若干anchor box的featrues,其中关键帧提取出n个,关键帧与其他帧共m个,此处双阶段检测相比于单阶段在视频信息融合上体现出了优势,即可以提取语义特征后接融合算法,接下来就是融合RPN的信息,论文中使用了attention机制,为了减少运算和存储负担,先对RPN特征进行pooling,此处操作和SEblock很像,之后通过前向得到q,k,v,q由关键帧得到,字典k则由所有帧(上下文帧以及关键帧)前向得到,接下来的操作在我看来具有很强的可解释性,通过q与k相乘,很好的查找了上下文特征与关键帧特征相关联的信息,并得到高权重,最后对v加权,投影后再叠加到关键帧的RPN特征上。
这种通过attention融合第一阶段特征进行视频分析相似的论文还有Object Detection in Video with Spatial-temporal Context Aggregation,Memory Enhanced Global-Local Aggregation for Video Object Detection,在我看来这几篇基本是一个意思,但谷歌的这篇论文写的不错,另外两篇notation满天飞,看着烦,只粗读
Context R-CNN一种基于注意力机制的视频检测算法相关推荐
- 论文浅尝 | 用于学习知识图谱嵌入的一种基于注意力机制的新型异构 GNN 框架HRAN...
笔记整理 | 李爽,天津大学 链接:http://hfbix45521e79b0484907sowxo0fubpp9b6xwx.fiiz.eds.tju.edu.cn/stamp/stamp.jsp? ...
- 空间注意力机制sam_一种基于注意力机制的神经网络的人体动作识别方法与流程...
本发明属于计算机视觉领域,具体来说是一种基于注意力机制的神经网络的人体动作识别的方法. 背景技术: 人体动作识别,具有着非常广阔的应用前景,如人机交互,视频监控.视频理解等方面.按目前的主流方法,可主 ...
- 小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法...
雷锋网(公众号:雷锋网) AI 科技评论按:小米近期发布了自己的 AI 音箱,加入了智能家居的战局.正当我们觉得小米会不会只是蹭"人工智能"热点的时候,小米的这篇论文证明了自己真的 ...
- Talk预告 | 腾讯AI Lab研究员童湛南京大学谈婧:基于注意力机制的视频自监督表示学习和时序动作检测
本期为TechBeat人工智能社区第465期线上Talk! 北京时间12月22日(周四)20:00,腾讯AI Lab研究员--童湛&南京大学计算机科学与技术系硕士研究生--谈婧的Talk将准时 ...
- mpeg b帧 编码 matlab,一种基于压缩域的镜头检测算法
文章编号: 1673- 5196( 2008) 06- 0097- 05 一种基于压缩域的镜头检测算法 摘要: 针对传统的非压缩域镜头检测算法数据量大.运算量大和效率低的缺点, 提出一种基于压缩域的镜 ...
- 4种基于像素分割的文本检测算法
摘要:文本检测是文本读取识别的第一步,对后续的文本识别有着重大的影响.一般场景下,可以通过对通用目标检测算法进行配置修改,来实现对文本行的检测定位.本文主要介绍基于像素分割的文本检测算法. 本文分享自 ...
- 基于注意力机制的lstm实现_一种基于注意力机制的自动标点引擎的测试体验
报告 我们基于深度学习的自动标点引擎,在合作团队的帮助下实现于2018年,论文已在今年发表.当时使用循环神经网络(RNN)中的双向长短时记忆(Bi-LSTM)作为特征提取器.这几年来,注意力机制开始取 ...
- keras cnn注意力机制_2019 SSA-CNN(自注意力机制)目标检测算法论文阅读笔记
背景 <SSA-CNN Semantic Self-Attention CNN for Pedestrian Detection>是2019 的工作,其作者来自于南洋理工.这篇文章主要是做 ...
- 【文献阅读笔记】之基于注意力机制的深度学习路面裂缝检测
中文,计算机辅助设计与图形学学报,第 32 卷 第 8 期,2020 年 8 月. DOI: 10.3724/SP.J.1089.2020.18059 摘要: 为实现自动准确地检测路面裂缝, 提升路面 ...
最新文章
- PingCode 是用来干嘛的?
- RESTful三理解
- sql 分组统计 面试题
- 功率放大器的有记忆失真特性
- 网易NAPM Andorid SDK实现原理--转
- android自动化测试工具之monkey
- Windows 10 常用的快捷键及常用指令
- 完全无人驾驶量产车Apollo Moon威马版首秀 成本降一半、能力翻10倍
- 【AI视野·今日Robot 机器人论文速览 第十三期】Wed, 23 Jun 2021
- 情怀再次输给现实!中国式星巴克,如今亏到连租金都交不起
- 史上最全的OpenCV入门教程
- 华为手机服务器位置,华为手机怎么查看云服务器地址
- Struts 2教程
- Revisiting Graph Contrastive Learning from the Perspective of Graph Spectrum
- Life:歌曲学习之教一个不会唱歌的人学会唱出《情非得已》、《海阔天空》、《红日》、《老男孩》等歌曲
- 昆石网络 VOS3000虚拟运营支撑系统任意文件读取漏洞
- java类的各访问级别,Java构造函数具有比其类更宽的访问级别
- 微服务系统设计(一) -- 如何拆分服务
- c语言入门——三子棋(N子棋)
- flutter bloc记录
热门文章
- JavaScript实现数字金额小写转大写
- UML-封神之路的开始
- 成功鲜有偶然:一览IT名人的教育成长经历
- Charles抓包遇到Not allowed POST https://xxxxxxxxxxx/xxxxxxxxxx connection dropped
- MATLAB铁轨检测+异物识别
- 《设计模式》设计模式的基本原则
- PM2.5传感器通过树莓派推送到ThingsPanel
- 基于忆阻器的神经网络应用研究!道翰天琼认知智能机器人平台API接口大脑为您揭秘。
- Three.js入门教程
- C语言顺序表,合并并排序(代码注释讲解)