1、为什么小模型的作为backbone效果会差?
在深度学习目标检测(图像分割)领域,我们发现当我们使用层数越深,并且在imagenet上表现越好的分类网络作为backbone时,它的检测和分割效果越好效果越好。比如我们使用resnet101作为backbone时候,faster_rcnn在coco2017检测数据集上的mAP可以达到40.1,而使用resnet50作为backbone时候,mAP只达到37.1。而ssd使用resnet50作为backbone时候,mAP达到30.6,使用mobilenet作为backbone只达到21.7。参看gluoncv公布的训练结果。

Detection - gluoncv 0.5.0 documentation​gluon-cv.mxnet.io

那为什么使用mobilenet这种小网络会比resnet101这种大网络效果差这么多呢?主流的想法是小网络的容量小、表现效果差,等等。

那到底是那么原因呢?我们可以观察gluoncv官网的ssd_mobilenet[1]和ssd_resnet50[2]在coco上的训练log。我们发现ssd_resnet50[2]的CrossEntropy和SmoothL1最终收敛到2.14+,和1.22+左右,而ssdmobilenet 的CrossEntropy和SmoothL1最终收敛到2.84+,和3.29+左右。同样我们可以去观察gluoncv官网的faster_rcnn分别在resnet50和在resnet101上的训练loss,我们可以发现loss收敛的越小模型在coco 2017的验证集上的mAP越高。并且当backbone使用fpn的方法增大了模型的体积,模型的loss会将的更低,相应的mAP也越高。由此我个人认为使用小模型的作为backbone的迁移学习任务(尤其是目标检测任务)效果差的真正原因是模型欠拟合。

2、你的神经网络真的收敛了么?

既然知道小网络作为backbone效果差的真正原因是模型欠拟合,那如果我们要提高小网络的效果,最主要的任务就是降低小网络的loss(当然大网络的loss如果被进一步降低效果自然越好,比如可以观看faster_rcnn+fpn+resnet101就比faster_rcnn+resnet101的loss低一点点,当然效果也就提升一点点)。

而我们不妨假设如果小网络最终”收敛“的loss如果可以达到大网络收敛的loss,那小网络能否达到大网络的效果呢?可能由于小网络的容量小,参数少,很难收敛到大网络的最终收敛的loss。当然方法是人想的,不然怎么能发paper。

我个人认为降低小网络的loss主要有两种方式:

1、提高效果的模型体积,如FPN,DLA,shortcut,concat 等等。不过当模型体积增大到一定程度,他所能得到的收益也越小,比如可以观看gluoncv官网的log。faster_rcnn+fpn+resnet101就比faster_rcnn+resnet101的loss低一点点,当然效果也就提升一点点。而faster_rcnn+fpn+resnet50就比faster_rcnn+resnet50的loss低很多,当然效果也就提升也高了很多。

2、改变训练方式,比如很早提出的知识蒸馏,2018年的cascade rcnn和snip,以及2019年的各种anchor free,都是改变训练方式,虽然他们的动机各不相同,但是我觉得大部分都是进一步降低loss,提高模型的效果。

第一种方式对于个人觉得对于做模型压缩的人来说不太可取,而第二种方式才是主要考虑方向。对于改变训练方式的方法,读者可以参看我的上一篇文章,对抗蒸馏,使用对抗生成网络和cosine attention的机制,将大网络的知识迁移到小网络,进一步降低小网络最终的收敛loss。目前开放的使用ssd_resnet50作为teacher net ssd_mobilenet作为student net在voc数据集上将ssd_mobilenetCrossEntropySmoothL1最终收敛到1.388+ 0.659+,mAP达到78.2+,而原始ssd_mobilenet在voc上的CrossEntropySmoothL1最终收敛到1.962+ 0.944+,mAP达到75.4,由于gpu资源限制目前在coco上还没训练完。

疯狂三角肌:GAN-KD for one-stage object-detection​zhuanlan.zhihu.com

训练log地址为,记得给star啊。

p517332051/GAN-Knowledge-Distillation-SSD​github.com

通过这种方法,我发现小网络并非不是不可以继续收敛,而是训练方式得到改善自然可以继续降低他的loss,而随之loss降低,网络的效果可以进一步提升。期望我的方法能起到抛砖引玉的效果,能推动学术界和工业界神经网络压缩的工作的进展。

参考

  1. ^https://raw.githubusercontent.com/dmlc/web-data/master/gluoncv/logs/detection/ssd_512_mobilenet1_0_coco_train.log
  2. ^abhttps://raw.githubusercontent.com/dmlc/web-data/master/gluoncv/logs/detection/ssd_512_resnet50_v1_coco_train.log

triplet loss后面不收敛_你的神经网络真的收敛了么?相关推荐

  1. MXNet/Gluon 中 Triplet Loss 算法

    Triplet Loss,即三元组损失,用于训练差异性较小的数据集,数据集中标签较多,标签的样本较少.输入数据包括锚(Anchor)示例⚓️.正(Positive)示例和负(Negative)示例,通 ...

  2. 三元组损失 Triplet Loss及其梯度

    Triplet Loss及其梯度 Triplet Loss及其梯度_jcjx0315的博客-CSDN博客 Triplet Loss简介 我这里将Triplet Loss翻译为三元组损失,其中的三元也就 ...

  3. 机器学习笔记:triplet loss

    1 Triplet loss Triplet Loss,即三元组损失,其中的三元是Anchor.Negative.Positive. 通过Triplet Loss的学习后使得Positive元和Anc ...

  4. CV之FRec之ME/LF:人脸识别中常用的模型评估指标/损失函数(Triplet Loss、Center Loss)简介、使用方法之详细攻略

    CV之FRec之ME/LF:人脸识别中常用的模型评估指标/损失函数(Triplet Loss.Center Loss)简介.使用方法之详细攻略 目录 T1.Triplet Loss 1.英文原文解释 ...

  5. triplet loss 在深度学习中主要应用在什么地方?有什么明显的优势?

    作者:罗浩.ZJU 链接:https://www.zhihu.com/question/62486208/answer/199117070 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权,非 ...

  6. 车辆搜索 -使用triplet loss 训练车辆识别模型

    最近读了LEARNING A REPRESSION NETWORK FOR PRECISE VEHICLE SEARCH 论文,将从中所了解的信息在此记录下来. 背景及模型介绍 此论文主要是讨论车辆的 ...

  7. Re-ID with Triplet Loss

    一篇讲Person Re-ID的论文,与人脸识别(认证)有很多相通的地方. 文章链接: <In Defense of the Triplet Loss for Person Re-Identif ...

  8. 【翻译】HyNet: Learning Local Descriptor with Hybrid Similarity Measure and Triplet Loss

    一篇很nice的论文 大部分机翻,可能有不通的地方,建议结合原文一起看 基于Hybrid Similarity Measure和Triplet Loss的局部描述子学习 摘要 最近的研究表明,局部描述 ...

  9. 论文笔记3 --(ReID)In Defense of the Triplet Loss for Person Re-Identification

    <In Defense of the Triplet Loss for Person Re-Identification> 论文:https://arxiv.org/abs/1703.07 ...

最新文章

  1. 卷积后feature map尺寸计算公式
  2. 面对5G,华为、中兴及三大运营商怎么布局?
  3. HTML5权威指南--Web Storage,本地数据库,本地缓存API,Web Sockets API,Geolocation API(简要学习笔记二)...
  4. 整理下Anytao《你必须知道的.Net》全文链接
  5. 一步步学习微软InfoPath2010和SP2010--第八章节--使用InfoPath表单Web部件
  6. C#使用Xamarin开发可移植移动应用(2.Xamarin.Forms布局,本篇很长,注意)附源码
  7. ctype函数_PHP Ctype(字符类型)函数
  8. python绘制散点图的步骤_python如何绘制散点图?
  9. linux使用苹果字体,Ubuntu 8.04字体美化之安装苹果丽黑字体教程(图)
  10. 为什么南昌.NET没有QQ群?
  11. linux as4,as4是linux系统吗?
  12. 关于viewpager 里嵌套 listview 同时实现翻页功能的“java.lang.IllegalStateException: The specified child...异常处理...
  13. Potentiometers
  14. 多线程 + java nio 实现按行读取并处理超大文件
  15. AWS DynamoDB的简介与使用
  16. 咸阳哪里学计算机,咸阳计算机进修学院
  17. 什么是图床,如何理解图床
  18. java毕业设计Internet快递柜管理系统源码+系统+数据库+lw文档+调试运行
  19. word 转为 html5,怎么把word转化为纯文本
  20. 2017 Android github上优秀开源项目分类汇总

热门文章

  1. hibernate jpa_JPAHibernate替代方案。 如果JPA或Hibernate对于我的项目而言不够好,该怎么办?...
  2. solr analyzer_查看您的Solr缓存大小:Eclipse Memory Analyzer
  3. 无状态会话的ejb_Java EE状态会话Bean(EJB)示例
  4. 阿卡接口_阿卡vs风暴
  5. java 工厂方法模式_Java中的工厂方法模式
  6. 休眠日志:常见问题的提示和解决方案
  7. hibernate保存失败_Hibernate:保存与保存并保存或更新
  8. Spring Boot Oauth2安全性
  9. Apache Lucene的结构
  10. 为什么现在是升级到Java 8的最佳时机