《FITNETS: HINTS FOR THIN DEEP NETS》论文整理
目录
零、前言
一、Fitnet的目的及适用范围
1、目的:
2、适用范围:
3、背景及创新点:
二、Hint-Based Training思想
1、hint层与guided层:
2、核心思想:
三、Fitnet训练过程及效果
1、FItnet训练过程可以分为三个阶段:
2、需要注意的问题:
3、具体流程:
4、损失函数:
(1)预训练阶段:
(2)知识蒸馏阶段:
5、训练效果:
四、Q&A
1、小模型模仿大模型中间层的输出feature map的大小还是内容?
2、为什么小模型模仿大模型hint层及其之前的feature map可以提高训练效果?
文章传送门:[1412.6550] FitNets: Hints for Thin Deep Nets (arxiv.org)
零、前言
Hinton老爷子2014年凭借着一篇《Distilling the Knowledge in a Neural Network》开创了知识蒸馏领域的先河之后,另一位大牛Bengio便开始马不停蹄的加入了知识蒸馏的研究之中。他首次提出通过中间层学习knowledge,提出了Hint-Based Training的思想。
在当时resnet、MRSA初始化、BN算法还未提出的年代,深层网络往往训练效果不好,而Hint-Based Training的提出利用了知识蒸馏有效训练了更深的神经网络,在参数比大模型更少的情况下利用了深度的优势达到的准确率甚至超过大模型。
一、Fitnet的目的及适用范围
1、目的:
利用基于feature的知识将宽而较浅的大网络压缩(知识蒸馏)为窄而较深的小网络,且有不错的表现
2、适用范围:
小模型比大模型深且窄,示意图如下
《FITNETS: HINTS FOR THIN DEEP NETS》论文整理相关推荐
- 深度学习论文笔记(知识蒸馏)—— FitNets: Hints for Thin Deep Nets
文章目录 主要工作 知识蒸馏的一些简单介绍 文中一些有意思的观念 Method 最近看了不少文献,一直懒得总结,现在才爬起来写总结-,不少论文的idea还是不错的 主要工作 让小模型模仿大模型的输出( ...
- 论文整理集合 -- 吴恩达老师深度学习课程
吴恩达老师深度学习课程中所提到的论文整理集合!这些论文是深度学习的基本知识,阅读这些论文将更深入理解深度学习. 这些论文基本都可以免费下载到,如果无法免费下载,请留言!可以到coursera中看该视频 ...
- Deep Learning论文笔记之(八)Deep Learning最新综述
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...
- Deep Learning论文笔记之(七)深度网络高层特征可视化
Deep Learning论文笔记之(七)深度网络高层特征可视化 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感 ...
- Deep Learning论文笔记之(六)Multi-Stage多级架构分析
Deep Learning论文笔记之(六)Multi-Stage多级架构分析 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些 ...
- Deep Learning论文笔记之(五)CNN卷积神经网络代码理解
Deep Learning论文笔记之(五)CNN卷积神经网络代码理解 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但 ...
- Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文, ...
- Deep Learning论文笔记之(三)单层非监督学习网络分析
Deep Learning论文笔记之(三)单层非监督学习网络分析 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感 ...
- Deep Learning论文笔记之(二)Sparse Filtering稀疏滤波
Deep Learning论文笔记之(二)Sparse Filtering稀疏滤波 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看 ...
最新文章
- jieba之segment
- 数据类型介绍和表的创建
- SQL Server 2005两本教程案例数据库
- 小程序实践(三):九宫格实现及item跳转
- nlp cs224n 学习笔记1 Introduction and Word Vectors
- 题解 P2949 【[USACO09OPEN]工作调度Work Scheduling】
- 数字化转型 数字分析_数字化转型背后的公司领先于开放的领导者
- GCD 和 NSOperationQueue 的差别
- Java基础(五)——泛型
- Linux下的进程池(3)
- 列车控制matlab仿真,基于matlab的列车纵向碰撞建模仿真研究
- 最小堆最大堆的详细解读
- 【2022 李宏毅】机器学习导论
- ib网卡命令_InfiniBand 网卡测试
- 非递归实现二叉树结点的遍历
- ubuntu AndroiStudio 中 外设(手机、平板) 无法使用
- 基础知识(七)Blend2015 画笔工具设置渐变色,其功能和PS的类似。
- 服务器u盘装系统bios设置,服务器bios设置u盘启动
- 【解决方案】智慧幼教:TSINGSEE青犀视频如何助力幼儿园智能化建设?
- html实现开心消消乐小游戏