Fine-tune

fine-tune中文译为“微调”,深度学习中需要在深层网络中不断进行训练更新模型的参数(权重)拟合能实现预期结果的模型。
然而在深层次的神经网络中进行训练,由于模型规模大,参数量多,因此会有以下问题:

1. 计算较为耗时,会占用大量计算资源和时间成本;
         2. 对于较为复杂的任务,比如说对于目标识别任务,目标类别多起来的话,如果想提升模型的表现能力,需要大量的数据集。同样以目标识别任务为例子,我们需要大量标注的图像数据来对模型进行训练;

然而还存在一个问题,仍然以目标识别任务为例,假设有一个已经训练好的模型A,其任务是识别(猫,狗,人,鸡,鸭,鹅)这6+1(背景)个类别的目标,当我们的需求发生变化,需要再增加一类目标“猪”时,如果采用重新训练一个新模型B的方式无疑会增加成本,而且造成了资源浪费——A和B的模型需求相似度高,我们为什么不可以利用到已经成熟的模型A呢?
        解决以上问题的方案就是fine-tune,微调!比如针对于以上举例,可以采用的一个微调策略是保留模型A的前若干层的结构以及它们训练后的权重,然后更改模型最后一层的softmax,调整其映射到(猫,狗,人,鸡,鸭,鹅,)+背景这八个类别,这样就大大减少了训练的时间和计算成本。
        其实还可以这么理解fine-tune:我们的目标是使预测损失最小化,在各个参数展开的空间内找到最优的点(或者是靠近最优点的点),如果从开始找,当然比较慢;但是从之前已经训练好的其他类似模型开始,就相当于在最优点附近的点开始,自然收敛的速度和效果会比从零训练好得多。
        当然针对不同的情况,fine-tune的方式也不尽相同,见下图:

图片来源于该博客

深度学习中Fine-tune是什么?相关推荐

  1. 转载 | 深度学习中的遥感影像数据集

    本文转载自博主GISer_Lin原创文章<深度学习中的遥感影像数据集> 点击此处转跳原文 以下数据集均为网上开源数据集,若有遗误或不慎涉及侵权,烦请评论或留言联系 目前本项目共整理 场景分 ...

  2. 差分隐私 深度学习_深度学习中的差异隐私

    差分隐私 深度学习 I would like to thank Mr. Akshay Kulkarni for guiding me on my journey in publishing my fi ...

  3. 机器学习知识总结 —— 12. 机器与深度学习中常用术语 [D-J]

    文章目录 Darknet Data / 数据 Dataset / 数据集 Deploy / 部署 Differentiable / 可微的 Distributed / 分布式 Domain Speci ...

  4. 深度学习中的一些英文解释

    A: (1)anchors:锚点.(anchors(锚点)定义在RPN网络中) B: (1)bounding box:预测边界框. (2)Botton-up 3D proposal generatio ...

  5. 深度学习中的优化算法之MBGD

    之前在https://blog.csdn.net/fengbingchun/article/details/75351323 介绍过梯度下降,常见的梯度下降有三种形式:BGD.SGD.MBGD,它们的 ...

  6. 深度学习中的优化算法之BGD

    之前在https://blog.csdn.net/fengbingchun/article/details/75351323 介绍过梯度下降,常见的梯度下降有三种形式:BGD.SGD.MBGD,它们的 ...

  7. 深度学习中的优化简介

    深度学习算法在许多情况下都涉及到优化. 1. 学习和纯优化有什么不同 在大多数机器学习问题中,我们关注某些性能度量P,其定义于测试集上并且可能是不可解的.因此,我们只是间接地优化P.我们系统通过降低代 ...

  8. 1 图片channels_深度学习中各种图像库的图片读取方式

    深度学习中各种图像库的图片读取方式总结 在数据预处理过程中,经常需要写python代码搭建深度学习模型,不同的深度学习框架会有不同的读取数据方式(eg:Caffe的python接口默认BGR格式,Te ...

  9. 深度学习中的注意力机制(三)

    作者 | 蘑菇先生 来源 | NewBeeNLP原创出品 深度学习Attenion小综述系列: 深度学习中的注意力机制(一) 深度学习中的注意力机制(二) 目前深度学习中热点之一就是注意力机制(Att ...

  10. 深度学习中的注意力机制(二)

    作者 | 蘑菇先生 来源 | NewBeeNLP 目前深度学习中热点之一就是注意力机制(Attention Mechanisms).Attention源于人类视觉系统,当人类观察外界事物的时候,一般不 ...

最新文章

  1. kotlin与java对比
  2. c语言启动程序句柄无效,电脑中玩英雄联盟提示“句柄无效”是怎么回事
  3. php5.6.16,OSX 10.11 中重新编译PHP5.6.16问题
  4. Object-c学习之路三(@class与#import的区别)
  5. Linux SVN一次增加多个文件并批量上传
  6. 【Trie】阅读理解(luogu 3879/ybtoj Trie-4)
  7. 南理工计算机博士 年薪_计算机专业的女博士毕业后,进入211大学当讲师,年薪曝光...
  8. javafx中的tree_JavaFX中的塔防(6)
  9. 手机影音第十一天,显示视频缓冲,显示卡顿时的网速,播放系统视频时调用播放器的选择...
  10. 【多线程】--生产者消费者模式--synchronized版本
  11. Linux进程管理及作业控制(转)
  12. LINUX安装TensorRT及特别注意事项
  13. 《移动应用开发技术——Android》课程报告-个人记账系统
  14. CS61C 学习笔记 --实时更新
  15. python打印图像所有的像素值
  16. HT513 I2S输入2.8W单声道D类音频功放IC
  17. 【第七周】项目6-停车场模拟
  18. SpringBoot 3.0最低版本要求的JDK 17,这几个新特性不能不知道
  19. gcc -O0 -O1 -O2 -O3 四级优化选项及每级分别做什么优化
  20. 模型压缩工具Distiller-INT8量化

热门文章

  1. c++网络编程中socket函数
  2. AFN3.0中文件的下载和上传
  3. TFLOPS 数据处理速度
  4. Linux循环中累计数据,linux shell 读取for循环中出现难处理的数据之单引号错误实例...
  5. Java基于POI对PPT的基本操作
  6. 前端051_单点登录SSO_注册功能实现
  7. RabbitMQ消息应答重新入队
  8. monit安装和使用
  9. 【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南
  10. 基于SaaS软件即服务模式的报表系统