这个问答来源于知乎,本文摘抄如下。

问题:感觉已经饱和了,很难再出顶级算法的样子。我所指的饱和是说围绕目标检测感觉没有什么好文章能发出来了,现有算法很难在短时间有突破了。想请教大家有什么好做的点子么?

回答:

饱和是相对于占坑来说的,对于去探索未来踩坑来说,目标检测还远远没有达到饱和的地步。只是说想发简单的好论文越来越难了,并不是说不会有什么突破了。单就检测来说,2018年顶会出的目标检测论文也并不算少。

下面是我个人就目标检测算法在深度学习领域未来研究的一些看法:

1.从专注精度的Faster RCNN、RFCN相关系列,以及专注速度的YOLO系列,未来的方向更专注于精度和速度的结合,这也是过去的很多模型在SSD系列上产生的原因,主要代表有RefineDet、RFBNet等。所以SSD系列的研究会成为主流。

2.目标选框从Region Based 和Anchor Based到基于角点,甚至是基于segmentation,包括semantic segmentation 和 instance segmentation 。今年比较有代表的CornerNet和Grid RCNN是一个开拓思路的方向,细节就不用说了吧。。。未来的目标选框方法依旧是研究的一个重要方向。

3.多尺度问题(尺度变换问题),目前常见的三种思路,采用专门设计的尺度变换模块,可以参考STDN: Scale-Transferrable Object Detection。多个scale的目标检测设计,没记错的话之前有在Faster RCNN基础上,做多个scale的rpn。当然最新的SNIP也是多个RPN。还有就是SNIPER,先用SNIPER的模块进行一个粗检测,检测出多个scale关注区域,然后再进行细检测。目前的问题是,如果是才有scale transfer moudle的话,可能会丢失一些信息,也就是多scale融合学习存在问题,那么如何设计一个单scale模型transfer moudle进行有效学习,这一点我是存疑的,总感觉这个多scale融合哪里存在问题。同时,采用多scale的先初步多scale检测再细检测会增加计算时间,如何有效的将两个模块进行结合,进行进一步的再设计是未来一个重点。

4.重新思考目标检测的训练,凯明今年的新作Rethinking imagenet pre-training已经验证了一个问题,pre-training再training和training from scratch这一点在目标检测问题理论上也是适用的。当目标检测数据集达到一定规模,目标选框问题是否可以单独抽离出来,做好更精确的选框预训练,再在具体的数据集上主要进行选框适应性训练和分类训练?另外由于目前的目标检测backbone网络都是从图像分类网络过来的,图像分类网络之前的提法是尺度不变性,而目标检测有尺度变化性,今年清华的一篇文章就是做了这个问题,设计了一个专门针对目标检测问题的backbone,但是还是基于ImgNet进行了预训练,那么不在ImgNet进行预训练是否可行?另外如何从一个小的数据集上进行一个转向任务的无预训练的学习 or 有预训练的小规模数据学习训练。目标检测的小规模数据训练是在实际工程应用中,尤其是工业化场景中一个比较需要关注的问题。

5.重新思考卷积神经网络的旋转不变性和尺度变化,有一些我在上面已经提到了,从一些论文的研究表明,卷积神经网络的旋转不变性似乎是一个伪命题,卷积网络的旋转不变性主要是通过数据的增强和大样本的学习获取的,本身应该不具备旋转不变性。这个问题我看一些研究者提到过,我的感觉是应该是不具备旋转不变性的,可能需要进行进一步的研究进行分析。旋转不变性和尺度变化会影响目标检测算法的基本框架。

6.目标检测以及深度学习的分割、关键点检测、跟踪都需要在数据标注上耗费巨大的成本,如何采用算法进行更有效的标注是一个核心的问题,包括上面4中提到的如何用更少的样本进行学习是关键。如果不能进行无监督的话,那么小规模数据的监督学习如何更有效进行训练达到大幅度精度提升将会是研究的重点。还有就是采用单图像单类别的弱标注,不进行选框标注,通过对大型目标检测数据集进行预训练,然后在这种单类单图像场景进行弱监督多类检测学习,进而泛化到多类单图像检测。

7.IOU的算法设计和阈值的选择,今年比较有特点的是IOUNet和Cascade RCNN。

8.更好的NMS。

9.one shot learning,我看来一个样本和小样本的数据增强和学习,也会有一些有意思的研究。参考评论里面的提到的参考文章:LSTD:A Low-Shot Transfer Detector for Object Detection 发表在AAAI2018.

10.如何实现未知目标类的检测,也就是我们常说的zero shot learning。从结合语义等信息从已知类别的目标检测,迁移到对未知类别的目标进行检测。参考论文Zero-Shot Object Detection(ECCV2018)。

11.如何从已经训练的模型去迁移到新增数据、新增类别的学习,也就是增量学习(Incremental Learning)。可以参考的论文有Incremental Learning of Object Detectors without Catastrophic Forgetting(ICCV2017)目标检测的论文以及End-to-End Incremental Learning(ECCV2018)。

12.CNN、Pooling、Loss 目前都有各种各样的变体,更有效的CNN、Pooling、Loss依旧会出现

13.将目标检测方法的一些研究迁移到SOT(Single Object Tracking)和MOT(Multiple Object Tracking),可以有效的观察到今年表现比较好的SOT算法和MOT算法都有和检测的结合出现。单目标跟踪可参考商汤和中科院计算所的SiameseRPN:High Performance Visual Tracking with Siamese Region Proposal Network(CVPR2018)以及最新的SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks(刚刚发布)。多目标跟踪可参考清华艾海舟组的REAL-TIME MULTIPLE PEOPLE TRACKING WITH DEEPLY LEARNED CANDIDATE SELECTION AND PERSON RE-IDENTIFICATION(CVPR2018)

14.目标检测的FineGrained问题。

15.模型的轻量级化,从目前的轻量级网络对于计算资源的压缩上,主要是集中在对于backebone的压缩,那么对于模型整体上针对目标检测的考虑进行再设计是否可行?

16.大尺寸图像的目标检测问题,目前很多检测的基本主要集中在512x512和1000x600左右的图像操作,但是在未来,4k图像和视频会成为主流,大尺寸图像的目标检测、跟踪都会成为主流,今年CVPR2018有一篇文章Dynamic Zoom-in Network for Fast Object Detection in Large Images是进行大尺寸图像的目标检测,主要是做的2k,设计了一个粗检测和精细检测的模块。所以针对大尺度的图像如何进行计算资源的压缩、有效的目标检测or跟踪是一个非常有前瞻性的研究工作。尤其是未来的网络电视剧、电影、短视频会出现更多的4k内容。

17.AR场景下的跨类检测融合,这个属于我的想象,一个简单的比如是AR眼镜会跟人类的眼睛一样的视野。那么在这个场景下对于视觉获取内容的有效提取包括图像里面就包括文字、商标、各类目标等等内容的融合检测。

18.3d 激光雷达lidar和深度相机的目标检测,在自动驾驶这一块用的比较多,但是更精细的应用场景还是很多的,还有很多的应用场景比如裁判之类的要求更精细化的检测(包括关键点检测分割之类的)。

19.视频流的检测,主要是应用到移动端场景的手机或者FPGA。由于视频流的图片信息具有时间和空间相关性,相邻帧之间的特城提取网络会输出有冗余的特征图信息,会造成没必要的计算浪费。同时图片的目标检测算法在目标物体运动模糊,拍摄焦距失调,物体部分遮挡,非刚性物体罕见变形姿态的情况下,很难获得较为准确的结果。同时权衡精度、计算时间以及计算资源变得尤为重要。可参考论文包括Towards High Performance Video Object Detection for Mobiles(Arxiv Tech Report 2018)、Towards High Performance Video Object Detection(CVPR2018)、Fully Motion-Aware Network for Video Object Detection(ECCV2018),ECCV2018和CVPR2018都有两三篇,主要贴一下Jifeng Dai的工作,其它就不贴了。

看完之后茅塞顿开,原本以为目标检测领域很难有大的作为,但实际上大方向上可能能够突破的地方不多,但在很多具体场景中,存在的问题还是很多。所以,加油吧,骚年!

sqlconnection pooling是什么意思_目标检测领域还有什么可做的?19 个方向相关推荐

  1. 目标检测领域还有什么可做的?19 个方向给你建议

    作者:种树的左耳 来源:知乎 原文链接:目标检测领域还有什么可做的?19 个方向给你建议 知乎问题:目标检测领域还有什么可以做的? 感觉已经饱和了,很难再出顶级算法的样子.我所指的饱和是说围绕目标检测 ...

  2. 深度学习_目标检测_SPP(Spatial Pyramid Pooling)详解

    在目标检测领域,很多检测算法最后使用了全连接层,导致输入尺寸固定.当遇到尺寸不匹配的图像输入时,就需要使用crop或者warp等操作进行图像尺寸和算法输入的匹配.这两种方式可能出现不同的问题:裁剪的区 ...

  3. 目标检测_目标检测: AnchorFree 时代

    本文转载自Smarter. 自从2018年8月CornerNet开始,Anchor-Free的目标检测模型层出不穷,最近达到了井喷的状态,宣告着目标检测迈入了Anchor-Free时代. 其实Anch ...

  4. 目标检测_目标检测 | Anchor free的目标检测进阶版本

    今天说的是<Soft Anchor-Point Object Detection>,其也是最近关于anchor free的目标检测的论文,作者来自于CMU,一作同样也是FSAF(2019 ...

  5. 最全整理 | 万字长文综述目标检测领域,您要的,都在这里!

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 在人体姿态估计前面的工作,一般还需要进行目标检测以提高最后姿态估计的准确度.那么这一次呢,站长就来跟大 ...

  6. 带你深入AI(4)- 目标检测领域:R-CNN,faster R-CNN,yolo,SSD, yoloV2

    带你深入AI(4)- 目标检测领域:R-CNN,faster R-CNN,yolo,SSD, yoloV2 2018年04月15日 11:09:29 阅读数:103 1 引言 深度学习目前已经应用到了 ...

  7. 从数据集到2D和3D方法,一文概览目标检测领域进展

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:深度学习这件小事 目标检测一直是计算机视觉领域中一大难题 ...

  8. 超越YOLOv5,1.3M超轻量,高效易用,目标检测领域这一个就够了!

    允中 发自 凹非寺 量子位 编辑 | 公众号 QbitAI 目标检测技术作为视觉技术届的顶梁柱,不仅单兵作战在人脸.车辆.商品.缺陷检测等场景有出色的表现,也是文本识别,图像检索.视频分析.目标跟踪等 ...

  9. 目标检测领域中的数据不均衡问题综述

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 参考:Imbalance Problems in Object Detection paper链接:h ...

最新文章

  1. CYQ.Data V5 分布式自动化缓存设计介绍(二)
  2. iOS 开发中的MVVM介绍(译)
  3. 基于Java多线程操作文件案例分享
  4. cat命令读取一部分_脚本攻略2 --命令之花
  5. leetcode 152. Maximum Product Subarry
  6. mysql 导入sql文件,source命令
  7. JS中的加号+运算符详解
  8. CRM_MESSAGES_DISPLAY debug
  9. 如何自己去写一个鼠标驱动_为什么要用哈密顿采样器(Hamiltonian Monte Carlo),以及如何自己写一个...
  10. sqlalchemy学习
  11. iOS-OpenGLES 简单渲染
  12. hdu1708(C++)
  13. SAP物料批次管理配置及操作手册
  14. BPNN-Belief Propagation Neural Networks
  15. linux的磁盘busy,Linux umount 报 device is busy 的处理方法
  16. Android 加载进度条,加载成功,数据为空,加载失败,无网络等状态不同界面的切换
  17. 校园•计量抄表信职学院
  18. 【解决方案】SkeyeVSS综合安防视频云服务在零售连锁巡店中的应用
  19. html第四天网站首页的布局设计到实施
  20. 通过ext排查MySQL服务器间歇性卡顿问题

热门文章

  1. IPv6地址的无状态自动配置
  2. 【电子电路计算公式】 导线流过电流计算工具,我已经做成一个小工具了(源代码)
  3. 语音合成(TTS)论文优选:过平滑问题分析及优化Revisiting Over-Smoothness in Text to Speech
  4. 华为路由器负载均衡_华为OSPF路由负载分担配置示例
  5. 【Word】长文档排版
  6. 利用反射动态修改 EasyPoi 导出Excel表格标题名称
  7. oracle去掉0x00,Oracle O001 / O00n 进程 100% CPU资源耗用
  8. JS中的BOM、正则表达式、定时器
  9. 关于阶乘的计算出现负数,数据溢出的问题
  10. selenium+chrome使用webrtc音频或视频时,默认开启麦克风和摄像头