学习目标:

1、多目标检测算法模型

2、主流的用于多目标检测的卷积神经网络框架

3、目标检测算法(one-stage、two-stage)


学习内容:

1、 目标检测算法模型有哪些

目标检测算法模型有两种:一种是anchor-based类模型另一种则是anchor-free类模型。其中anchor-based类模型包括有(1)基于回归的one-stage方法,检测速度更快,一般步骤是特征提取、分类和定位回归;(2)基于候选框生成和分类的two-stage方法,特点是较丰富的特征和较高的准确率,一般步骤是特征抽取、生成候选框、分类和定位回归。

2、主流的卷积神经网络框架

(1)最早最著名的LeNet

LeNet有着6层的网络结构,包括3个卷积层,2个下采样层和1个全连接层。每个卷积层包括卷积、池化以及sigmoid激活函数三部分,使用卷积提取空间特征,降采样层采用平均池化,最后采用softmax作为分类器。

(2)增加LeNet网络深度和广度的AlexNet

AlexNet有着8层的网络结构(不包括激活、池化、LPN和dropout层)其中5个卷积层和3个全连接层;激活函数使用ReLU;池化层使用大小为3X3的重叠池;将dropout层添加到完全连接层的优点之一是将训练模型进行了并行化加速,极大缩短了训练周期,ReLU作为激励函数对深度网络梯度分散问题具有较大的帮助,使用数据增强,dropout和LRN层来阻止网络过度拟合,提高模型的泛化能力。

(3)易于移植,参数已经训练好的VGGNet深度卷积网络

VGGNet有着16层的网络结构(不计入池化层和softmax),VGG在不同层通过增加loss损失函数和inception结构两种方式与AlexNet网络的区别,其中VGGNet拥有16~19层的网络层数,而AlexNet只有8层,VGG16把卷积层上升到卷积块的概念,卷积块包括2~3个卷积层,增大了网络感受野,减少了网络参数,并且通过反复使用激活函数ReLU,可得到更多的线性变换,进一步提高了学习能力,多尺度用于训练和预测期间的数据增强,将相同的图像缩放到不同的尺寸以进行预测,最后取平均值。

(4)加深加宽网络,减少参数量的GoogLeNet

GoogLeNet的好处是很大程度上加深和加宽了网络,减少了参数量,将错误率将至6,656%,但该模型的计算复杂度高,修改通道数困难

(5)目前最好之一的ResNet网络

有着152层超深卷积神经网络,ResNet模型就是残差学习单元的连续叠加,理论上无线叠加也不改变网络性能。实现了深层的神经网络结构,解决了因不断深化神经网络而使得准确率达到饱和的问题。输入和输出能直接相连,这样学习残差就是整个网络的工作,很好地简化了学习目标与难度。一种迁移性很好的网络结构,易于与其他网络集成。

(6)DenseNet网络

该网络新增着特殊的稠密块和过渡层,其中稠密块为稠密连接的highway的模块,稠密块定义输入和输出的连接方法,稠密块内部特征图大小必须一致,层级输入是多个字符串的连接,区别于ResNet的element-wise连接,内部每个节点代表BN+ReLU+Conv。过渡层为相邻2个稠密块的中间部分。该网络的优点是:highway的稠密连接方式缓解了深层网络的梯度消失问题,特征得到了重用,大幅度减少了模型参数,甚至减少了在小样本数据上的过拟合。该网络的缺点是:随着稠密块深度的加深,深层输入特征图谱的维度和最终输出的维度都非常大;然后针对这一问题,针对这一问题,采取在稠密块里添加Bottleneck单元和在过渡层里添加1X1卷积的方式来降维。

3、目标检测算法(one-stage算法)

(1)Overfeat算法

候选框通过滑动窗口和规则块获得,通过多尺度滑动窗口来改善检测结果,利用卷积神经网络与回归模型对目标进行分类和定位。

(2)YOLO算法

其优点是训练时使用P-ReLU激活函数,检测速度快达到实时性要求;其缺点是只分析最后7pixelX7pixel的特征图谱,导致对小目标的检测质量不佳,难以区分多个目标在同一个网络单元的情况。该算法的步骤是与二阶段算法的主要区别是使用图像的全局信息来预测目标,将输入图像大小调整为固定的448X448,为简化网络结构,去掉了提取候选框分支,用了一个无分支卷积网络来提取特征、回归候选框和分类,直接预测各网络内的边框坐标以及类别的置信度。

(3)SSD算法

相比较与YOLO算法,针对YOLO算法定位精度差的问题,加入了多尺度特征检测、匹配策略、修改VGG16结构、加入atrous算法。该算法的优点是定位准确和算法速度快;该算法的缺点是小目标的特征模糊不利于检测,没有候选区域时,难以回归,容易导致不收敛问题。

(4)DSSD算法

DSSD算法相比较与SSD算法的提高部分,针对SSD算法难以检测小目标的问题,用ResNet101网络取代SSD的VGG16.该算法的优点是DSSD对于ResNet网络取代SSD的VGG16,提取网络特征的能力得以提高,用反卷积层增加了大量上下文信息。缺点是对小目标检测鲁棒性较差。DSSD算法有着两个特殊模块,预测模块和反卷积模块,预测模块是为提高准确性,防止梯度直接流入ResNet主网络而采用增强每个子任务表现力的方法。反卷积模块增加了大量上下文信息。

(5)YOLOv2/YOLO9000

YOLOV2算法相比较与YOLO,区别在于对其网络结构进行了改进,用Darknet19作为特征提取网络,并添加了BN进行预处理,提高了分辨率,提高了定位精度,增加了候选框的预测并用强约束定位方法,使算法啊召回率有了很大提高,为更好地检测小目标,融合了图像细粒度特征,使浅层特征和深层特征相结合。

(6)RetinaNet算法

创新点在于采用focal loss替换交叉熵损失函数,降低分类良好样本的分类损失,将训练重点放在一组稀疏的样本上,防止在训练期间大量易辨识的负例给检测器带来压制影响。

(7)YOLOV3算法

创新点在于使用了V2的Darknet53网络,并与FPN网络结构相结合,再由卷积网络得出预测结果。优点与SSD相当的精确度,检测速度快,缺点是整体模型更加复杂。

4、 目标检测算法(two-stage)

(1)R-CNN(region-based convolutional neural networks)

R-CNN特征学习过程:   R-CNN算法使用选择性搜索算法来评估相邻图像子块的特征相似性,结合并后的相似图像区域打分,选择感兴趣区域(ROI)的候选框作为卷积神经网络样本输入,由标定框与候选框组成的正负样本特征形成相应的特征向量,采用SVM对特征向量进行分类,最后返回标定框与候选框,以达到目标检测的目的。

R-CNN主要缺点:    重复计算量大,约有2000个候选框的方案中,每个候选框都需要经过backbone网络单独提取特征,候选框会重叠,产生大量重复计算;训练测试复杂,候选区域获取、特征获取、分类和回归都是单独运行的,中间数据也是但单独保存的;速度缓慢,前两个缺点是R-CNN速度慢的原因,难以满足实时性需求;输入图像大小的限制,输入图像大小被强制缩小为277pixelX277pixel,这将导致检测目标形变,使检测性能下降;需要进行SVM与特征回归的后期操作,并在SVM与特征回归期间不学习更新CNN特征。

R-CNN创新点:   将将大规模的卷积神经网络应用于自下而上的候选区域以定位和分割对象;当标记的训练集不足时,对辅助任务执行监督训练,然后执行特定任务的优化,提高模型性能。

(2)针对卷积神经网络重复运算和形状扭曲变形提出的SPP-Net算法

与R-CNN区别:   SPP-Net舍弃了R-CNN在输入神经网络之前裁剪候选框和图像子块缩放操作,在卷积层与全连接层中间添加了SPP(spatial pyramid pooling)结构,提升了候选框的生成速率,节省了计算开销。该算法从特征图上获取候选框特征向量的过程被设置到卷积操作后,将R-CNN中的若干次卷积转换为一个卷积,减少了模型的计算量

SPP-Net缺点:   与R-CNN设计相同,训练经历了多个阶段,中间特征数据也必须保存,增加了时间开销;分类网络的初始参数被承接到backbone网络中,并未针对检测问题进行优化;训练样本的大小不一致,这将增大候选框的ROI感受野,权重不能被神经网络快速更新;SPP的微调只更新SPP层后面的全连接层,当网络很深时这样做难以奏效。

SPP-Net创新点:   利用空间金字塔化结构;对整个图片只进行一次特征提取,运算速度较快

(3)改进了ROI pooling层的FAST R-CNN

对比于SPP-Net的区别:   改进了ROIpooling层,将不同大小候选框的特征图采样成大小固定的特征。ROI池化层的功能和SPP层类似,但ROI更简单,仅采用单个尺度来划分网格和池化,该层可以直接求导操作,并直接将梯度传输到backbone网络。

优点:    把深度网络与SVM分类相结合,构成multi-task模型,分类和回归由全连接层网格同时执行。

(4)解决“上两种算法需要单独的候选区域模块,运算量大”的问题,提出Faster R-CNN算法

创新点:   添加RPN(按照既定规则设置多尺度的锚点);用RPN卷积层中获取的候选框替换选择搜索传递的候选框,以及通过建议生成窗口的CNN与目标检测的CNN共享,实现网络端到端的训练;在训练期间,除了通过模型各单元学习实现对应任务外,还配合自主学习。

(5)针对上述算法仅仅学习ROI池化层以前的卷积网络特征参数,基于FCN提出了R-FCN算法

与Faster R-CNN的区别:   沿用了框架结构,区别在于引入位置敏感的分图取代ROI-wisesubnetwork,位置敏感的分图使用ROI Pooling来完成信息采样,融合分类与位置信息。

创新点:  R-FCN整个网络实现特征共享,缓解了目标分类对平移不变性的要求及目标检测对有平移变化要求之间的矛盾,主要不足是缺乏对候选区域全局信息与语义信息的利用;  用基于位置敏感分布的卷积网络替换ROI池化层后的全连接网络,降低了ROI池化层后网络对各个样本区域的计算时间成本。

(6)FPN(feature pyramid network)算法

创新点:    改进了CNN网络对特征的提取方式,让特征能更好地表达出图片各个维度的信息, 底层特征只有较少的语义信息,但目标位置准确;高层特征拥有丰富的语义信息,但目标相对粗糙。FPN很好地将低层特征的高分辨率和高层特征的语义信息相结合,同时使用不同层的特征来实现预测。

FPN处理图像步骤:   从下到上不同维度的特征生成;从下到上对特征进行补充增强;输出的不同维度特征和CNN网络提取的特征之间的关联表达。

(7)Mask R-CNN算法

在实例分割和检测精度方面都达到当时的最高水准,但是最大缺陷是检测速度难以满足实时需要,标注代价过于昂贵也是实例分割面临的一大问题 。

(8) MegDet算法

以往都是提出新的范式新的损失函数,针对训练中的关键因素mini-batch做出改进的算法。


学习时间:

1、 周一至周五早上8 点—晚上6点
2、 周一至周五早晚上8 点—晚上10:30

3、周六下午或晚上和周日一天


本周学习产出:

1、 英文文献翻译:用于多目标跟踪的RAN网络
2、CSDN 技术博客 2 篇
3、 学习的 vlog 视频 1 个

一、(1):开题后的内容整体把握--多目标检测综述相关推荐

  1. 后 R-CNN时代, Faster R-CNN、SSD、YOLO 各类变体统治下的目标检测综述:Faster R-CNN系列胜了吗?,(知乎ChenJoya大佬,讲的挺好的,记录一下)

    我们检测到你可能使用了 AdBlock 或 Adblock Plus,它的部分策略可能会影响到正常功能的使用(如关注). 你可以设定特殊规则或将知乎加入白名单,以便我们更好地提供服务. (为什么?) ...

  2. 小学数学教材整体把握的策略研究

    小学数学教材整体把握的策略研究 (2012-11-01 13:13:03) 正在上传-重新上传取消​转载▼ 标签: 杂谈 分类: 文献研究 小学数学教材整体把握的策略研究 作者:内详 摘  要:数学知 ...

  3. 如何写开题报告的内容

    开题报告的内容 1.课题来源及研究的目的和意义: 2.国内外在该方向的研究现状及分析: 3.主要研究内容及创新点: 4.研究方案及进度安排,预期达到的目标: 5.为完成课题已具备和所需的条件: 6.预 ...

  4. 负数比较大小_【教研活动】整体把握负数脉络 深度解读教材意图——鲤城区实验小学数学组单元整体教学系列研讨活动...

    目前,单元整体教学已逐渐成为教师提升教学效率和教学质量的新手段.以模块化数学教材的主题单元为依托,对其教学准备.教学手段.教学内容.课后习题等教学资源进行整体把握,有机整合,并实施统一教学对提升教学质 ...

  5. html打印比例缩放,打印内容整体缩小、挤压的原因及解决办法?

    打印机打印网页里的内容其行距.字体大小.整体尺寸都缩小了?其实原因很简单,请看本文分享的解决办法(基于lodop打印控件). 打印问题的详情描述 用户反馈:电脑打印Word文档.电子表格.打印机测试页 ...

  6. java二维数组从键盘更改_互换二维数组的行列。要求数组的行数、列数以及各元素均从键盘输入;输出互换前数组内容和互换后数组内容。(要求循环输入进行测试)Java...

    1. 互换二维数组的行列.要求数组的行数.列数以及各元素均从键盘输入:输出互换前数组内容和互换后数组内容.(要求循环输入进行测试) package com.mingrisoft; import jav ...

  7. python爬虫获取的网页数据为什么要加[0-Python爬虫实战1-解决需要爬取网页N秒后的内容的需求...

    -------谢谢您的参考,如有疑问,欢迎交流 前引: 当你需要爬取的页面内容在访问页面5秒后才会出现, 这时使用python的requests模块就很难爬取到你想要的内容了. requests和se ...

  8. 将数组前n个和后m-n个整体逆置的实现

    #include <iostream>using namespace std;/*void inverst(int *R,int s,int t){int k,w;for(k=s;k< ...

  9. 获取freemarker处理后的内容

    相信很多人都用过freemarker,或做视图,或模板,或生成静态文件等,但是有多少人做过这样的应用,通过模板后,不是要输出静态的内容,而是直接在代码中获取处理模板后的内容,研究了下API,freem ...

最新文章

  1. 一文打尽目标检测NMS | 精度提升篇
  2. 1.2 偏差/方差-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授
  3. oracle中lock和latch的用途
  4. REVIT使用中遇到的各种问题汇总
  5. 使用API​​密钥(aka身份验证令牌)部署到Maven Central
  6. Java迭代器修改链表_Java恼人的迭代器不会返回链表中的元素
  7. LeetCode MySQL 1142. 过去30天的用户活动 II
  8. mysql5.6无法安装_windows下Mysql5.6的安装
  9. Hbase 深度使用分析
  10. 学机器人编程还是计算机编程,为什么要学习机器人编程课程
  11. 【算法】路径规划中的Dijkstra(狄克斯特拉)与A星算法
  12. hdu 5025 Saving Tang Monk(bfs+状态压缩)
  13. ps海报合成教程_怎样合成创意环保海报图片的PS教程
  14. linux下route未找到命令
  15. Matlab 2018b 安装问题 - License checkout failed
  16. 英语拼读规则,不错的英语教学网站
  17. 如何快速下载CNCF Logos-收藏
  18. python手势识别隐马尔可夫模型_手势识别身份认证的连续隐马尔可夫模型
  19. 计算机网络统考在线试题打不开,电脑上通用考试客户端打不开怎么办
  20. fatal error C1010:在查找预编译头时遇到意外的文件结尾。是否忘记了向源中添加“#include“stdafx.h“”

热门文章

  1. 如何安全地嵌入第三方js – FBML/caja/sandbox/ADsafe简介
  2. 瑞昱Realtek(Realtek HD Audio Driver)音频声卡驱动R2.49 for Win7_Vista
  3. 【Cinemachine】VirtualCamera虚拟相机详解(一)
  4. Windows下msysGit安装
  5. 重学 Java 设计模式:实战原型模式「上机考试多套试,每人题目和答案乱序排列场景」
  6. 判断题 PHP程序的扩展名必须是.php,PHP笔试题目
  7. 标注相关的知识点:强制性标准与推荐性标准
  8. 盈建科弹性板6计算_常见的盈建科计算参数理解.ppt
  9. HBuilderX配置Git插件
  10. 浏览器ocx控件安装 WINDOW10 IE浏览器 可用