1.论文声称的创新点

论文中的创新点主要体现在网络结构的创新上，作者提出了一种基于SSD多尺度特征融合（Multi-scale Feature Fusion Single Shot Detector，MFF-SSD）的目标检测模型。将高层特征与低层特征进行融合，并提出了融合模块，实现不同尺度的特征提取。
高层特征图对目标的抽象程度更深，包含充分的全局信息，具有较大的感受野和较强的上下文语义信息表征能力，因此对目标位置的判定更加准确；而低层特征图的空间分辨率要高于高层特征图，能够更加准确地识别出更多的边缘、轮廓和纹理等细节信息，对目标类别做出准确判定，MFF-SSD模型从不同的卷积层来提取特征用于目标检测。

2.实现方法

论文先描述了SSD模型，然后在SSD模型的基础上提出了MFF-SSD目标检测模型，最后又对融合模块进行了讲解。

2.1 SSD模型

SSD模型是经典的一阶段检测模型，其主要思想是均匀的在各个层的特征图上进行采样，抽样时可以采用不同的尺度和长宽比，然后直接用CNN提取特征进行分类和回归，所以其优势时速度快，实时性好。但是由于其正负样本（算法会事先约定一个iou的阈值，检测框与lable的iou大于该阈值为正样本，小于该阈值为负样本）不均衡，导致模型准确率稍低。SSD基础的网络结构是VGG16，同时加入了YOLO的回归思想和Faster-RCNN的先验框机制。
SSD原论文

图1 SSD网络结构

SSD300网络结构的输入图像大小为300×300300\times 300300×300，前面一部分使用了VGG16的卷积层，将VGG16的两个全连接层变为两个卷积层（conv6和conv7),后面又进行了几次卷积生成了conv8_2,conv9_2，conv10_2以及conv11_2。由图可知，SSD将生成的conv4_3，conv7,conv8_2，conv9_2，conv10_2以及conv11_2这六个特征图送到检测分类层做回归。

2.2 MFF-SSD模型

由于SSD网络生成的预测框质量较低，导致小尺度目标或被遮挡的目标定位失败，影响检测效果，所以针对SSD算法在检测小目标存在检测视野范围小、检测图像长宽比单一、检测精度较低、实时性较差等问题，提出了一种基于SSD多尺度特征融合的模型（MFF-SSD）。

图2 MFF-SSD网络结构

MFF-SSD模型在原SSD网络结构的基础上对SSD的后4层进行反卷积，得到4个反卷积模块（conv12_2，conv13_2，conv14_2以及conv15_2），利用高层网络和低层网络的优势，将高层网络和低层网络进行多尺度融合，然后将特征融合模块与SSD网络的7~11层同时输入到检测模块进行检测。共提取大小分别是（150，150）、（75，75）、（38，38）、（19，19）、（10，10）、（5，5）、（3，3）、（1，1）的8个特征图. 该模型实现了来自不同卷积层、不同尺度、不同特征的多元信息的分类检测与位置回归。

2.3 融合模块

MFF-SSD模型一有4个融合模块，它们采用的都是跳跃连接的方式，以融合模块1为例进行说明。

图3 融合模块

首先将高层特征图conv15_2进行上采样，使用卷积核为2×22\times 22×2，通道数为256进行反卷积，接着使用3×33\times 33×3的卷积核进行卷积，再经过激活函数ReLu输出到BN层，采用L2正则化对数据进行批量归一化，再输入到卷积和为3×33\times 33×3，通道数为256再进行一次反卷积，接着再经过卷积核大小为3×33\times 33×3的卷积，最后经过BN层输出。低层特征图conv2_2首先经过一次卷积核大小为3×33\times 33×3的卷积，再输入到ReLu,最后经BN层归一化输出。将高层特征图和低层特征图的输出进行求和操作（Eltw Sum),然后输入到ReLu层，最后再经过一次卷积和ReLu后就实现了融合。

3. 提升效果（实验结果分析）

论文数据集采用的是Wider Face人脸检测数据集，输入图像尺寸大小为300×300300\times 300300×300，参数设置为：迭代次数5000次，学习率为0.0001，动量因子为0.9，权值衰减参数为0.0005，IOU为0.6，具体实验结果见下图。

图4 各种检测算法结果对比

由上述实验结果可自己MFF-SSD模型的mAP（目标检测的平均精度）达到了78.9%，FPS（每秒传输帧数，目标检测过程中衡量处理速度的指标）达到了57FPS,与其他算法对比，MFF-SSD算法检测分类更准确，定位更精准，总体性能较好。
SSD网络结构详解

多尺度特征融合的目标检测算法-论文解读相关推荐

CVPR2020论文笔记——EfficientDet---双尺度特征融合BiFPN目标检测
代码:https://github.com/google/automl/tree/ master/efficientdet. 摘要:提出了提高效率的几个关键优化提出了一种加权的双向特征金字塔网络,它 ...
基于激光雷达点云的3D目标检测算法论文总结
作者丨eyesighting@知乎来源丨https://zhuanlan.zhihu.com/p/508859024 编辑丨3D视觉工坊前言过去很多年激光雷达的车规标准和高昂价格是阻碍其量产落 ...
keras cnn注意力机制_2019 SSA-CNN（自注意力机制）目标检测算法论文阅读笔记
背景 <SSA-CNN Semantic Self-Attention CNN for Pedestrian Detection>是2019 的工作,其作者来自于南洋理工.这篇文章主要是做 ...
PaddleDetection研究报告——百度目标检测PP-YOLOE论文解读+实践应用
最新发布 PP-YOLOE+,最高精度提升2.4% mAP,达到54.9% mAP,模型训练收敛速度提升3.75倍,端到端预测速度最高提升2.3倍:多个下游任务泛化性提升. PicoDet-NPU模型 ...
三维目标检测---BtcDet论文解读 Behind the Curtain: Learning Occluded Shapes for 3D Object Detection
个人博客代码链接 paper链接提出的问题作者首先指出LiDAR帧其实不是严格意义上的3D结构,而是一个2.5D的结构.因为LiDAR通常只能获得目标靠近传感器那部分的结构特征,远离传感器部分的 ...
三维目标检测---PartA2论文解读
代码链接 paper链接个人博客问题不同于二维目标检测,三维目标检测中的基准框包含着大量的信息,其能够很自然的提供前景点的标记,甚至提供位于基准框中各个点的内部相对位置.而这些信息对于三维目标检 ...
弱监督目标检测算法论文阅读（六）Erasing Integrated Learning : A Simple yet Effective Approach for Weakly Supervised
这是一篇CVPR2020的中山大学的一篇文章,提出了一个新颖的擦除网络. Abstract 弱监督对象定位(WSOL)旨在仅通过图像级别标签之类的弱监督来定位对象.但是,基于分类网络的可用技术的一个长 ...
弱监督目标检测算法论文阅读（四）Localizing Common Objects Using Common Component Activation Map
Abstract 在这项工作中,我们提出了一种从一组图像中的新颖对象类别中定位常见对象的方法. 我们使用新的通用组件激活图(CCAM)解决了这个问题,其中我们将特定于类别的激活图(CAM)视为组件,以 ...
弱监督目标检测算法论文阅读（五）Combinational Class Activation Maps for Weakly Supervised Object Localization
Abstract 弱监督的对象定位最近吸引了关注,因为它旨在通过使用图像级标签来识别类标签和对象位置.先前的大多数方法都使用与最高激活源相对应的激活图.仅利用一个最高概率类别的激活图通常会偏向有限的区 ...

多尺度特征融合的目标检测算法-论文解读