1.论文声称的创新点

  论文中的创新点主要体现在网络结构的创新上,作者提出了一种基于SSD多尺度特征融合(Multi-scale Feature Fusion Single Shot Detector,MFF-SSD)的目标检测模型。将高层特征与低层特征进行融合,并提出了融合模块,实现不同尺度的特征提取
  高层特征图对目标的抽象程度更深,包含充分的全局信息,具有较大的感受野和较强的上下文语义信息表征能力,因此对目标位置的判定更加准确;而低层特征图的空间分辨率要高于高层特征图,能够更加准确地识别出更多的边缘、轮廓和纹理等细节信息,对目标类别做出准确判定,MFF-SSD模型从不同的卷积层来提取特征用于目标检测。

2.实现方法

  论文先描述了SSD模型,然后在SSD模型的基础上提出了MFF-SSD目标检测模型,最后又对融合模块进行了讲解。

2.1 SSD模型

  SSD模型是经典的一阶段检测模型,其主要思想是均匀的在各个层的特征图上进行采样,抽样时可以采用不同的尺度和长宽比,然后直接用CNN提取特征进行分类和回归,所以其优势时速度快,实时性好。但是由于其正负样本(算法会事先约定一个iou的阈值,检测框与lable的iou大于该阈值为正样本,小于该阈值为负样本)不均衡,导致模型准确率稍低。SSD基础的网络结构是VGG16,同时加入了YOLO的回归思想和Faster-RCNN的先验框机制。
SSD原论文

图1 SSD网络结构

  SSD300网络结构的输入图像大小为300×300300\times 300300×300,前面一部分使用了VGG16的卷积层,将VGG16的两个全连接层变为两个卷积层(conv6和conv7),后面又进行了几次卷积生成了conv8_2,conv9_2,conv10_2以及conv11_2。由图可知,SSD将生成的conv4_3,conv7,conv8_2,conv9_2,conv10_2以及conv11_2这六个特征图送到检测分类层做回归。

2.2 MFF-SSD模型

  由于SSD网络生成的预测框质量较低,导致小尺度目标或被遮挡的目标定位失败,影响检测效果,所以针对SSD算法在检测小目标存在检测视野范围小、检测图像长宽比单一、检测精度较低、实时性较差等问题,提出了一种基于SSD多尺度特征融合的模型(MFF-SSD)。

图2 MFF-SSD网络结构

  MFF-SSD模型在原SSD网络结构的基础上对SSD的后4层进行反卷积,得到4个反卷积模块(conv12_2,conv13_2,conv14_2以及conv15_2),利用高层网络和低层网络的优势,将高层网络和低层网络进行多尺度融合,然后将特征融合模块与SSD网络的7~11层同时输入到检测模块进行检测。共提取大小分别是(150,150)、(75,75)、(38,38)、(19,19)、(10,10)、(5,5)、(3,3)、(1,1)的8个特征图. 该模型实现了来自不同卷积层、不同尺度、不同特征的多元信息的分类检测与位置回归。

2.3 融合模块

  MFF-SSD模型一有4个融合模块,它们采用的都是跳跃连接的方式,以融合模块1为例进行说明。

图3 融合模块

  首先将高层特征图conv15_2进行上采样,使用卷积核为2×22\times 22×2,通道数为256进行反卷积,接着使用3×33\times 33×3的卷积核进行卷积,再经过激活函数ReLu输出到BN层,采用L2正则化对数据进行批量归一化,再输入到卷积和为3×33\times 33×3,通道数为256再进行一次反卷积,接着再经过卷积核大小为3×33\times 33×3的卷积,最后经过BN层输出。低层特征图conv2_2首先经过一次卷积核大小为3×33\times 33×3的卷积,再输入到ReLu,最后经BN层归一化输出。将高层特征图和低层特征图的输出进行求和操作(Eltw Sum),然后输入到ReLu层,最后再经过一次卷积和ReLu后就实现了融合。

3. 提升效果(实验结果分析)

论文数据集采用的是Wider Face人脸检测数据集,输入图像尺寸大小为300×300300\times 300300×300,参数设置为:迭代次数5000次,学习率为0.0001,动量因子为0.9,权值衰减参数为0.0005,IOU为0.6,具体实验结果见下图。

图4 各种检测算法结果对比

由上述实验结果可自己MFF-SSD模型的mAP(目标检测的平均精度)达到了78.9%FPS(每秒传输帧数,目标检测过程中衡量处理速度的指标)达到了57FPS,与其他算法对比,MFF-SSD算法检测分类更准确,定位更精准,总体性能较好。
SSD网络结构详解

多尺度特征融合的目标检测算法-论文解读相关推荐

  1. CVPR2020论文笔记——EfficientDet---双尺度特征融合BiFPN目标检测

    代码:https://github.com/google/automl/tree/ master/efficientdet. 摘要:提出了提高效率的几个关键优化 提出了一种加权的双向特征金字塔网络,它 ...

  2. 基于激光雷达点云的3D目标检测算法论文总结

    作者丨eyesighting@知乎 来源丨https://zhuanlan.zhihu.com/p/508859024 编辑丨3D视觉工坊 前言  过去很多年激光雷达的车规标准和高昂价格是阻碍其量产落 ...

  3. keras cnn注意力机制_2019 SSA-CNN(自注意力机制)目标检测算法论文阅读笔记

    背景 <SSA-CNN Semantic Self-Attention CNN for Pedestrian Detection>是2019 的工作,其作者来自于南洋理工.这篇文章主要是做 ...

  4. PaddleDetection研究报告——百度目标检测PP-YOLOE论文解读+实践应用

    最新发布 PP-YOLOE+,最高精度提升2.4% mAP,达到54.9% mAP,模型训练收敛速度提升3.75倍,端到端预测速度最高提升2.3倍:多个下游任务泛化性提升. PicoDet-NPU模型 ...

  5. 三维目标检测---BtcDet论文解读 Behind the Curtain: Learning Occluded Shapes for 3D Object Detection

    个人博客 代码链接 paper链接 提出的问题 作者首先指出LiDAR帧其实不是严格意义上的3D结构,而是一个2.5D的结构.因为LiDAR通常只能获得目标靠近传感器那部分的结构特征,远离传感器部分的 ...

  6. 三维目标检测---PartA2论文解读

    代码链接 paper链接 个人博客 问题 不同于二维目标检测,三维目标检测中的基准框包含着大量的信息,其能够很自然的提供前景点的标记,甚至提供位于基准框中各个点的内部相对位置.而这些信息对于三维目标检 ...

  7. 弱监督目标检测算法论文阅读(六)Erasing Integrated Learning : A Simple yet Effective Approach for Weakly Supervised

    这是一篇CVPR2020的中山大学的一篇文章,提出了一个新颖的擦除网络. Abstract 弱监督对象定位(WSOL)旨在仅通过图像级别标签之类的弱监督来定位对象.但是,基于分类网络的可用技术的一个长 ...

  8. 弱监督目标检测算法论文阅读(四)Localizing Common Objects Using Common Component Activation Map

    Abstract 在这项工作中,我们提出了一种从一组图像中的新颖对象类别中定位常见对象的方法. 我们使用新的通用组件激活图(CCAM)解决了这个问题,其中我们将特定于类别的激活图(CAM)视为组件,以 ...

  9. 弱监督目标检测算法论文阅读(五)Combinational Class Activation Maps for Weakly Supervised Object Localization

    Abstract 弱监督的对象定位最近吸引了关注,因为它旨在通过使用图像级标签来识别类标签和对象位置.先前的大多数方法都使用与最高激活源相对应的激活图.仅利用一个最高概率类别的激活图通常会偏向有限的区 ...

最新文章

  1. 解密FFmpeg播放track mode控制
  2. Linux下如何把时间转成秒数,或把秒数转换成标准时间
  3. LZW算法PHP实现方法 lzw_decompress php
  4. Struts2开发基本步骤
  5. POI:根据单元格的自定义名获取单元格的位置
  6. [转]关于HTTP服务器每个客户端2个连接的限制
  7. 在sqlServer中把数据导出为insert脚本
  8. 微信开发:getLocation签名失效的问题
  9. Windows 8.1安装python出现api-ms-win-crt-runtime-l1-1-0.dll
  10. 机器学习 神经网络 神经元_神经网络如何学习?
  11. SSD1306驱动理解
  12. 毕业季海报设计素材图片大全,送给毕业生们最好的毕业季祝福语文案
  13. python pygame实现简单的网游 1
  14. MIMO系统信道容量分析
  15. flutter引入高德地图_flutter配置高德地图SDK
  16. EMC启航:我们为什么要做EMC
  17. 反编译工具java知乎_GDA反编译器更新至3.66:支持污点传播分析、方法签名、python脚本...
  18. 80后青海“拉面王子”的一碗“致富面”
  19. 外国语言文学类毕业论文文献包含哪些?
  20. 小米手机 root权限 获取

热门文章

  1. 成绩管理系统c语言程序设计,学生成绩管理系统(C语言)
  2. 再见!To B市场部
  3. 自走棋投降代码_dota自走棋投降命令
  4. 百万年薪独家专访,开发人员不修复bug怎么办?
  5. LABVIEW可移植的图像处理视觉检测项目源码视觉项目开发NIVISION视觉检测
  6. CSS 页面禁止长按保存图片和长按复制文字
  7. java实现0001....A000...ZA00...ZA99-ZB00...ZZZZ流水号的自动生成
  8. 计算机重装系统方法教程
  9. 前端基础 html(三)
  10. canvas 图片、文字模糊问题