1. Edge Assisted Real-time Object Detection (MobiCom’ 19)

问题&场景

增强现实(AR)通过执行CNN推断来达到对周围环境的准确理解,然而这需要大量计算能力,因而需要将该任务卸载至边缘服务器进行处理。这里以AR中的目标识别为例,显然AR需要将服务器的处理结果回传,而后进行渲染操作,端到端时延越长,最终准确度也越不准确。而上传AR视频本身是需要大量带宽的。本文旨在降低端到端时延,包括传输时延和服务器处理时延。

解决办法

动态ROI编码

idea:从视频内容角度出发,并不是所有像素块都需要高质量编码,只需要将潜在的区域进行高质量编码,其他区域采用低码率编码。
method:采用上一帧的检测结果作为ROI的参照

传输和推理的并行化

基于Motion Vector 的目标追踪

自适应卸载

基于两个原则:(1)只有在边缘云已完全接收到先前卸载的帧的情况下,帧才有资格被卸载;(2)如果帧与上次卸载的帧有显著差异,则将考虑卸载。第一个原则可防止网络拥塞,第二个可减少冗余,进而降低传输量。
相似度计算:(1)是否有大的motions出现;(2)是否有大量像素值改变。帧的运动由所有运动矢量的和来量化,并且新像素的数量由编码帧内的帧内预测宏块的数量来估计。

系统架构

2. Focus: Querying Large Video Datasets with Low Latency and Low Cost(OSDI’ 18)

场景

主要是在大规模数据集中找到符合请求的视频,一般来说,请求会附带视频特征,如包含的目标等。如找到过去一周交通视频里的卡车,找到昨天晚上公司摄像头拍下的公人;

问题

  1. 视频请求任务的执行通常需要运行detector&classifier CNNs,显然用昂贵的CNN会显著增加处理时延和计算开销;
  2. 在视频收集过程中使用CNN推理,能提高视频请求速度,但代价昂贵,同时也会造成潜在的资源浪费(因为大部分摄像头收集的视频和要求的视频并没有直接联系);
  3. 在视频请求时进行CNN推理,通过帧下采样、CNN模型优化等手段可降低推理代价,但处理速度依然十分缓慢(处理一个月的视频需要5小时)。

目标

在大规模历史视频数据中,实现低延时和低代价的视频请求

解决方案

基于索引的快速查询

idea:简单CNN虽然有更低的准确度,但是复杂CNN的最好结果也在简单CNN的top-K结果内。如下图所示
Recall: Fraction of relevant objects that are selected (其实可以理解为与目标类别中被选中的比例)
Precision: Fraction of selected objects that are relevant(选中的类别中为目标类别的比例)

从上图可以看到,随着K的增大,目标类别中,越来越多的类被包括在top-K内。这也意味着,当我们用简单模型初筛时,虽然不能保证百分比检测出目标物体,但是能保证top-K内有目标物体。

工作流程:

分为两个阶段:(1)Ingest-time:通过简单模型得到top-K物体(按概率排序),每个物体对应当前frame的ID,该步骤可实现高Recall;(2)Query-time:用户发出一个请求(包含目标物体),系统只需要根据目标物体对应的帧ID寻找,并将其送入昂贵的CNN加以确认,该步骤可实现高Precision。

消除索引冗余

挑战:对每一帧都建立一个索引,开销十分巨大,同时查询也很繁琐,耗时高。一个更大的K也会加大增加后续请求的时间
动机相似图片产生的特征向量也十分相似,如图所示:

方法:通过将相似的目标聚类,从而减小查询时间
如上图所示,便宜CNN得到所有图片中目标的特征图,并通过聚类算法将相似目标放在一个类别中,每次用户端发出请求,只需在相应的类别中,取出对应的额frame ID进行深度CNN推理,即可得到相应的视频或者图片。

权衡建索引的代价和请求的时延

调整系统中的一些参数:

  1. Ingest阶段,选择多便宜的CNN?
  2. 如何选择近似索引top-K中的K?
  3. 聚类算法中,聚类的距离阈值如何选择?
    通过计算 Pareto Boundary,即帕累托边界,选择最优配置

系统流图


Focus在查询前,都会使用一个简易的CNN建立一个物体到帧ID的索引,在后续阶段,只需将相应的帧送入昂贵CNN进行检验即可。

近年来视频分析论文解读一相关推荐

  1. CVPR2019最全整理:全部论文下载,Github源码汇总、直播视频、论文解读等

    本文首发于公众号极市平台 点击**加入极市CV技术交流群**,交流更多计算机视觉相关的技术干货 CVPR 由IEEE举办的计算机视觉和模式识别领域的顶级会议,在机器学习领域享有盛名.今年的 CVPR ...

  2. 多模态情感分析论文解读——CTFN模型

    论文:CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation Fusion Ne ...

  3. TPS Motion(CVPR2022)视频生成论文解读

    文章目录 解决问题 算法 TPS运动估计 多分辨率遮挡Mask 训练损失函数 测试阶段 实验 结论 论文: <Thin-Plate Spline Motion Model for Image A ...

  4. ICCV 2019 论文解读:用图神经网络改善视频的多标签分类

    作者 | 王磊 本文介绍了汽车之家团队在ICCV 2019一篇关于视频理解论文相关的工作.针对视频多标签分类的问题,论文提出了将视频多标签之间相关性特征加入到网络之中,结果证明该方法可以显著的提高视频 ...

  5. ECCV 2018论文解读 | DeepVS:基于深度学习的视频显著性方法

    作者丨蒋铼 学校丨北京航空航天大学在校博士,大不列颠哥伦比亚大学联合培养博士 研究方向丨计算机视觉 本文概述了来自北京航空航天大学徐迈老师组 ECCV 2018 的工作 DeepVS: A Deep ...

  6. 微软亚洲研究院论文解读:基于动态词表的对话生成研究(PPT+视频)

    本文为 12 月 27 日,北京航空航天大学博士生.微软亚洲研究院实习生--吴俣在第 21 期 PhD Talk 中的直播分享实录. 本次 Talk 的主题是基于动态词表的对话生成研究.首先,吴俣博士 ...

  7. AI论文解读丨融合视觉、语义、关系多模态信息的文档版面分析架构VSR

    摘要:文档版式分析任务中,文档的视觉信息.文本信息.各版式部件间的关系信息都对分析过程具有很重要的作用.本文提出一种融合视觉.文本.关系多模态信息的版式分析架构VSR. 本文分享自华为云社区<论 ...

  8. Resnet论文解读与TensorFlow代码分析

    残差网络Resnet论文解读 1.论文解读 博客地址:https://blog.csdn.net/loveliuzz/article/details/79117397 2.理解ResNet结构与Ten ...

  9. 计算机视频分析,暴雨/夜间/人群密集难倒视频分析?三篇CVPR2021论文攻克这些难题...

    智东西(公众号:zhidxcom) 作者 | 杨畅 编辑 | Panken 智东西7月25日消息,近日,由耶鲁-新加坡国立大学学院(Yale-NUS College)副教授Robby Tan领导的研究 ...

最新文章

  1. 基于vue-cli配置移动端自适应
  2. python 归并排序,合并有序数组,逆序对个数
  3. sharepoint 2010 记录管理 对象模型
  4. 打造具有物联网基因的现代化商业银行
  5. 最急救助(【CCF】NOI Online能力测试3 入门组)
  6. .foreach()需要判断空吗_这次我们来聊聊 Stream#forEach 源码
  7. 优化器——梯度下降优化算法综述
  8. 大数据 数据平台方案评估
  9. ​瑞幸员工如何作假22亿,怎样用技术防止财务造假?
  10. asdm 对应 java 版本,asdm不能登录问题;浏览器必须是ie,不能是chrome或者firefox;java的版本,尤其是安全等级和例外需要调整...
  11. 为何数据分析师更容易获得高薪工作?
  12. VSCode中调试flutter遇到Android licenses not accepted的错误提示
  13. SkyEye(一种软件模拟的系统开发平台)
  14. weixin-java-pay实现公众号微信支付与退款
  15. 入门经典_Chap08_题解总结:极角扫描法 滑动窗口 单调队列 单调栈
  16. 用python程序画出一些简单的动漫人物
  17. 流氓软件卸载之——WPS猎豹热点
  18. 精通Java事务编程(8)-可串行化隔离级别之可串行化的快照隔离
  19. 六六:月薪两千也要有一万元的范儿
  20. 关于ubuntu使用pip3安装软件时报ImportError:cannot inport name 'sysconfig'错误的解决方法

热门文章

  1. 游戏设计师的思考:游戏如何产生快乐,要如何维持快乐?
  2. php allow furl open,如何阻止來自iframe的彈出窗口?
  3. Qt终极教程——用Qt编程实现中国象棋游戏(提供源代码和程序编译运行教程)
  4. LNMP平台搭建-Centos6.x
  5. python基础班-淘宝-目录.txt
  6. wifi前导间隔GI
  7. [开源] .NetFramework .NetCore Xamarin 使用 ORM FreeSql 访问 Sqlite
  8. 模拟电路设计(9)--- VMOSFET
  9. MySql命令-公司总结
  10. 计算机主板启动加密码,华硕主板bios怎样设置开机启动密码(cmos密码)