triplet loss后面不收敛_你的神经网络真的收敛了么？

1、为什么小模型的作为backbone效果会差？
在深度学习目标检测(图像分割)领域，我们发现当我们使用层数越深，并且在imagenet上表现越好的分类网络作为backbone时，它的检测和分割效果越好效果越好。比如我们使用resnet101作为backbone时候，faster_rcnn在coco2017检测数据集上的mAP可以达到40.1，而使用resnet50作为backbone时候，mAP只达到37.1。而ssd使用resnet50作为backbone时候，mAP达到30.6，使用mobilenet作为backbone只达到21.7。参看gluoncv公布的训练结果。

Detection - gluoncv 0.5.0 documentationgluon-cv.mxnet.io

那为什么使用mobilenet这种小网络会比resnet101这种大网络效果差这么多呢？主流的想法是小网络的容量小、表现效果差，等等。

那到底是那么原因呢？我们可以观察gluoncv官网的ssd_mobilenet^[1]和ssd_resnet50^[2]在coco上的训练log。我们发现ssd_resnet50^[2]的CrossEntropy和SmoothL1最终收敛到2.14+，和1.22+左右，而ssdmobilenet 的CrossEntropy和SmoothL1最终收敛到2.84+，和3.29+左右。同样我们可以去观察gluoncv官网的faster_rcnn分别在resnet50和在resnet101上的训练loss，我们可以发现loss收敛的越小模型在coco 2017的验证集上的mAP越高。并且当backbone使用fpn的方法增大了模型的体积，模型的loss会将的更低，相应的mAP也越高。由此我个人认为使用小模型的作为backbone的迁移学习任务(尤其是目标检测任务)效果差的真正原因是模型欠拟合。

2、你的神经网络真的收敛了么？

既然知道小网络作为backbone效果差的真正原因是模型欠拟合，那如果我们要提高小网络的效果，最主要的任务就是降低小网络的loss(当然大网络的loss如果被进一步降低效果自然越好，比如可以观看faster_rcnn+fpn+resnet101就比faster_rcnn+resnet101的loss低一点点,当然效果也就提升一点点)。

而我们不妨假设如果小网络最终”收敛“的loss如果可以达到大网络收敛的loss，那小网络能否达到大网络的效果呢？可能由于小网络的容量小，参数少，很难收敛到大网络的最终收敛的loss。当然方法是人想的，不然怎么能发paper。

我个人认为降低小网络的loss主要有两种方式：

1、提高效果的模型体积，如FPN，DLA，shortcut，concat 等等。不过当模型体积增大到一定程度，他所能得到的收益也越小，比如可以观看gluoncv官网的log。faster_rcnn+fpn+resnet101就比faster_rcnn+resnet101的loss低一点点,当然效果也就提升一点点。而faster_rcnn+fpn+resnet50就比faster_rcnn+resnet50的loss低很多,当然效果也就提升也高了很多。

2、改变训练方式，比如很早提出的知识蒸馏，2018年的cascade rcnn和snip,以及2019年的各种anchor free，都是改变训练方式，虽然他们的动机各不相同，但是我觉得大部分都是进一步降低loss，提高模型的效果。

第一种方式对于个人觉得对于做模型压缩的人来说不太可取，而第二种方式才是主要考虑方向。对于改变训练方式的方法，读者可以参看我的上一篇文章，对抗蒸馏，使用对抗生成网络和cosine attention的机制，将大网络的知识迁移到小网络，进一步降低小网络最终的收敛loss。目前开放的使用ssd_resnet50作为teacher net ssd_mobilenet作为student net在voc数据集上将ssd_mobilenet的CrossEntropy和SmoothL1最终收敛到1.388+ 0.659+，mAP达到78.2+，而原始ssd_mobilenet在voc上的CrossEntropy和SmoothL1最终收敛到1.962+ 0.944+，mAP达到75.4，由于gpu资源限制目前在coco上还没训练完。

疯狂三角肌：GAN-KD for one-stage object-detectionzhuanlan.zhihu.com

训练log地址为，记得给star啊。

p517332051/GAN-Knowledge-Distillation-SSDgithub.com

通过这种方法，我发现小网络并非不是不可以继续收敛，而是训练方式得到改善自然可以继续降低他的loss，而随之loss降低，网络的效果可以进一步提升。期望我的方法能起到抛砖引玉的效果，能推动学术界和工业界神经网络压缩的工作的进展。

参考

^https://raw.githubusercontent.com/dmlc/web-data/master/gluoncv/logs/detection/ssd_512_mobilenet1_0_coco_train.log
^^a^bhttps://raw.githubusercontent.com/dmlc/web-data/master/gluoncv/logs/detection/ssd_512_resnet50_v1_coco_train.log

triplet loss后面不收敛_你的神经网络真的收敛了么？相关推荐

MXNet/Gluon 中 Triplet Loss 算法
Triplet Loss,即三元组损失,用于训练差异性较小的数据集,数据集中标签较多,标签的样本较少.输入数据包括锚(Anchor)示例⚓️.正(Positive)示例和负(Negative)示例,通 ...
三元组损失 Triplet Loss及其梯度
Triplet Loss及其梯度 Triplet Loss及其梯度_jcjx0315的博客-CSDN博客 Triplet Loss简介我这里将Triplet Loss翻译为三元组损失,其中的三元也就 ...
机器学习笔记：triplet loss
1 Triplet loss Triplet Loss,即三元组损失,其中的三元是Anchor.Negative.Positive. 通过Triplet Loss的学习后使得Positive元和Anc ...
CV之FRec之ME/LF：人脸识别中常用的模型评估指标/损失函数(Triplet Loss、Center Loss)简介、使用方法之详细攻略
CV之FRec之ME/LF:人脸识别中常用的模型评估指标/损失函数(Triplet Loss.Center Loss)简介.使用方法之详细攻略目录 T1.Triplet Loss 1.英文原文解释 ...
triplet loss 在深度学习中主要应用在什么地方？有什么明显的优势？
作者:罗浩.ZJU 链接:https://www.zhihu.com/question/62486208/answer/199117070 来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非 ...
车辆搜索 -使用triplet loss 训练车辆识别模型
最近读了LEARNING A REPRESSION NETWORK FOR PRECISE VEHICLE SEARCH 论文,将从中所了解的信息在此记录下来. 背景及模型介绍此论文主要是讨论车辆的 ...
Re-ID with Triplet Loss
一篇讲Person Re-ID的论文,与人脸识别(认证)有很多相通的地方. 文章链接: <In Defense of the Triplet Loss for Person Re-Identif ...
【翻译】HyNet: Learning Local Descriptor with Hybrid Similarity Measure and Triplet Loss
一篇很nice的论文大部分机翻,可能有不通的地方,建议结合原文一起看基于Hybrid Similarity Measure和Triplet Loss的局部描述子学习摘要最近的研究表明,局部描述 ...
论文笔记3 --（ReID）In Defense of the Triplet Loss for Person Re-Identification
<In Defense of the Triplet Loss for Person Re-Identification> 论文:https://arxiv.org/abs/1703.07 ...

triplet loss后面不收敛_你的神经网络真的收敛了么？

参考

triplet loss后面不收敛_你的神经网络真的收敛了么？相关推荐

最新文章

热门文章