深度学习中Fine-tune是什么?
Fine-tune
fine-tune中文译为“微调”,深度学习中需要在深层网络中不断进行训练更新模型的参数(权重)拟合能实现预期结果的模型。
然而在深层次的神经网络中进行训练,由于模型规模大,参数量多,因此会有以下问题:
1. 计算较为耗时,会占用大量计算资源和时间成本;
2. 对于较为复杂的任务,比如说对于目标识别任务,目标类别多起来的话,如果想提升模型的表现能力,需要大量的数据集。同样以目标识别任务为例子,我们需要大量标注的图像数据来对模型进行训练;
然而还存在一个问题,仍然以目标识别任务为例,假设有一个已经训练好的模型A,其任务是识别(猫,狗,人,鸡,鸭,鹅)这6+1(背景)个类别的目标,当我们的需求发生变化,需要再增加一类目标“猪”时,如果采用重新训练一个新模型B的方式无疑会增加成本,而且造成了资源浪费——A和B的模型需求相似度高,我们为什么不可以利用到已经成熟的模型A呢?
解决以上问题的方案就是fine-tune,微调!比如针对于以上举例,可以采用的一个微调策略是保留模型A的前若干层的结构以及它们训练后的权重,然后更改模型最后一层的softmax,调整其映射到(猫,狗,人,鸡,鸭,鹅,猪)+背景这八个类别,这样就大大减少了训练的时间和计算成本。
其实还可以这么理解fine-tune:我们的目标是使预测损失最小化,在各个参数展开的空间内找到最优的点(或者是靠近最优点的点),如果从开始找,当然比较慢;但是从之前已经训练好的其他类似模型开始,就相当于在最优点附近的点开始,自然收敛的速度和效果会比从零训练好得多。
当然针对不同的情况,fine-tune的方式也不尽相同,见下图:
图片来源于该博客
深度学习中Fine-tune是什么?相关推荐
- 转载 | 深度学习中的遥感影像数据集
本文转载自博主GISer_Lin原创文章<深度学习中的遥感影像数据集> 点击此处转跳原文 以下数据集均为网上开源数据集,若有遗误或不慎涉及侵权,烦请评论或留言联系 目前本项目共整理 场景分 ...
- 差分隐私 深度学习_深度学习中的差异隐私
差分隐私 深度学习 I would like to thank Mr. Akshay Kulkarni for guiding me on my journey in publishing my fi ...
- 机器学习知识总结 —— 12. 机器与深度学习中常用术语 [D-J]
文章目录 Darknet Data / 数据 Dataset / 数据集 Deploy / 部署 Differentiable / 可微的 Distributed / 分布式 Domain Speci ...
- 深度学习中的一些英文解释
A: (1)anchors:锚点.(anchors(锚点)定义在RPN网络中) B: (1)bounding box:预测边界框. (2)Botton-up 3D proposal generatio ...
- 深度学习中的优化算法之MBGD
之前在https://blog.csdn.net/fengbingchun/article/details/75351323 介绍过梯度下降,常见的梯度下降有三种形式:BGD.SGD.MBGD,它们的 ...
- 深度学习中的优化算法之BGD
之前在https://blog.csdn.net/fengbingchun/article/details/75351323 介绍过梯度下降,常见的梯度下降有三种形式:BGD.SGD.MBGD,它们的 ...
- 深度学习中的优化简介
深度学习算法在许多情况下都涉及到优化. 1. 学习和纯优化有什么不同 在大多数机器学习问题中,我们关注某些性能度量P,其定义于测试集上并且可能是不可解的.因此,我们只是间接地优化P.我们系统通过降低代 ...
- 1 图片channels_深度学习中各种图像库的图片读取方式
深度学习中各种图像库的图片读取方式总结 在数据预处理过程中,经常需要写python代码搭建深度学习模型,不同的深度学习框架会有不同的读取数据方式(eg:Caffe的python接口默认BGR格式,Te ...
- 深度学习中的注意力机制(三)
作者 | 蘑菇先生 来源 | NewBeeNLP原创出品 深度学习Attenion小综述系列: 深度学习中的注意力机制(一) 深度学习中的注意力机制(二) 目前深度学习中热点之一就是注意力机制(Att ...
- 深度学习中的注意力机制(二)
作者 | 蘑菇先生 来源 | NewBeeNLP 目前深度学习中热点之一就是注意力机制(Attention Mechanisms).Attention源于人类视觉系统,当人类观察外界事物的时候,一般不 ...
最新文章
- kotlin与java对比
- c语言启动程序句柄无效,电脑中玩英雄联盟提示“句柄无效”是怎么回事
- php5.6.16,OSX 10.11 中重新编译PHP5.6.16问题
- Object-c学习之路三(@class与#import的区别)
- Linux SVN一次增加多个文件并批量上传
- 【Trie】阅读理解(luogu 3879/ybtoj Trie-4)
- 南理工计算机博士 年薪_计算机专业的女博士毕业后,进入211大学当讲师,年薪曝光...
- javafx中的tree_JavaFX中的塔防(6)
- 手机影音第十一天,显示视频缓冲,显示卡顿时的网速,播放系统视频时调用播放器的选择...
- 【多线程】--生产者消费者模式--synchronized版本
- Linux进程管理及作业控制(转)
- LINUX安装TensorRT及特别注意事项
- 《移动应用开发技术——Android》课程报告-个人记账系统
- CS61C 学习笔记 --实时更新
- python打印图像所有的像素值
- HT513 I2S输入2.8W单声道D类音频功放IC
- 【第七周】项目6-停车场模拟
- SpringBoot 3.0最低版本要求的JDK 17,这几个新特性不能不知道
- gcc -O0 -O1 -O2 -O3 四级优化选项及每级分别做什么优化
- 模型压缩工具Distiller-INT8量化