目录

摘要

引言

方法

通过选择后的神经元训练学生网络

神经元的属性判别性定义(关系到上边两个函数如何定义)

Teacher和Student的网络结构

实验

测试方法

压缩T1模型

压缩模型T2

压缩集成模型T1

结论


摘要

对KD进行改进,不用soften的标签作为监督信息,而是用softmax前的神经元作为监督信息

利用学到的人脸特征的必备的特性,提出了一种选择和人脸特征相关性高的特征的方法(提出选择的方法)、

用这种选择的方法加上监督信息的改进,模型可以达到51.6X的压缩率,推理时间加快了90倍

引言

  • 之前做法总结

用softmax函数后的概率值作为监督信息;

用softmax之前的零均质化后神经元的值作为监督信息;

有人指出前两种做法都存在极限输出,一个是1一个是正无穷,提出了soften标签作为监督信息;

但是在人脸识别中这些做法不收敛;

  • 本论文的出发点

最后隐藏层的神经元的信息,和softmax后的信息一样多,但是更加的紧凑;

这些信息中含有跟人脸识别不相关的信息,所以需要剔除,剔除的方法来自于以下三个观察现象;

观察现象一:将神经元看成是人脸属性上的分布代表,有的神经元是身份相关的属性(IA),有的是身份不相关的(NA)

观察现象二:有一部分神经元是对NA敏感的,还有一些是IA与NA混杂敏感的,这表明神经元不是完全可分解的,而且这是网络对人脸识别任务的过拟合现象

观察现象三:有些神经元是与这所有的属性无关的,一直被抑制的,这属于噪音

  • 本论文的贡献

高维度的soft标签是难以拟合的,而用更紧凑的监督信息可以帮助更快地收敛;

发现了三个观察现象

提出了一种有效的神经元的选择方法

方法

通过选择后的神经元训练学生网络

  • 网络损失函数

fi表示teacher网络中选择的神经元

g表示从输入Ii到特征的函数映射

W表示student网络的参数

  • 如何选择出fi

前半部分中的函数表示的含义是神经元的intra-personal variant(类内变化)程度,类内变化越大,惩罚越大。例如戴眼镜,对于某一个人来说是有带和不带两种状态,这个属性的intra-personal variant程度就比较大,而弯月眉来说,某一个人在任何情况下都是这一种状态,这个属性的intra-personal variant程度就比较小

后半部分中的函数表示两个神经元的不相似性,如果它们相似性越大,惩罚越大。

y表示神经元,x表示该神经元的一个向量,用来帮助描述该神经元的intra-personal variant程度

整个式子表示,要选择出类内不变并且相似度小的那些神经元

神经元的属性判别性定义(关系到上边两个函数如何定义)

  • 深度人脸识别任务可以看成在人脸属性上的分布表示

T1具有属性敏感性

从Figure1可以看出,T1的神经元是具有属性敏感性的,而LBP,HOG是不具有这个特性的(这里通过将LBP或者HOG的特征的某一维作为属性判别器来实现)

神经元可能是多属性相关的

对于Figure2(a)

通过将某个神经元的激活值分组到小中大三组,然后平均化每一组内的输入得到的图像,最后认为标注最符合该神经元的属性。这表明一个神经元是可能和多个属性有关系的。

神经元的向量表示方法

根绝CelebA数据集上的40个属性来定义x

j表示x向量的第几维,也就是关于第几个属性的值,TP表示真正率,TN表示真负率

  • 这种分布表示既不是类内不变也不是可分解的

对于Figure2(b)

随机挑选了80个神经元,跟据在40个属性上激活值的情况将他们分为四个类别:IA,NA,(IA+NA),inhibit

NA表示这种分布表示不是类内不变的

IA+NA的属性占了1/4,这表明这种分布表示不是可分解的

  • 有些神经元是对所有的属性都没有反应的,这部分神经元可以看作是噪音

​​​​​​​Figure 2(b)中的inhibit神经元

  • 总结

​​​​​​​

这个定义是等式二中的前半部分中的函数,如果一个神经元对NA更加敏感,那么它的惩罚就越大

神经元的选择最后是通过一种叫做mean field algorithm的算法来求得的

结合等式二后半部分的含义,最后会选择出类内不变并且相似性小的那些神经元

Teacher和Student的网络结构

c为student网络,网络的输出为12K,前一层的输出为512

12K是用soften target(不是KD)来监督

512是通过选择后的teacher的属性来监督学习的,论文中说用logits,应该是引言中提到的神经元的值经过零均值化后的值

实验

测试方法

通过训练好的模型的最后隐藏层的神经元与知识库中的一张图片对比距离,若距离大于阈值,则不是这个人,否则,是这个人

压缩T1模型

  • 模型效果

S-neurions是选用所有的顶层隐藏层单元的值作为监督信息(应该是均值化过的)

S-selection是通过本文的方法选择过的顶层隐藏层单元的值作为监督信息(应该是均值化过的)

S-1-of-K是通过交叉熵和辅助的属性信息来训练的

S-soft是通过软标签的方式来训练的,当趋于无穷大时,等价于用输出的logits作为监督信息

S-1-of-K是为了对比说明S-selection和S-neurons的提升是利用了更好的监督,而不是属性信息的作用

  • 模型收敛速度

从图六可以看出soft target要比hard target收敛快,这是因为soft target含有更多的信息

在soft target中,t越大收敛越快,而t=inf时,等价于logits的平方差损失,这说明logits含有更紧凑的信息

S-selection帮助模型减少了target数量,收敛速度变快

压缩模型T2

S-selection的效果虽然没有T1好,但是经过微调后还是可以超过T1的

深度的网络还是比较难调的

压缩集成模型T1

S代表Student

结论

在识别任务中,软硬标签都是难以拟合的,因为维度太大。而最后一层隐藏层更适合用于监督信息,因为它跟软或硬标签拥有同样多的信息,但是更加紧凑,从收敛速率上就可以看出这一点

人脸识别任务可以看成在属性集上的一种分布表示,但是这中分布并不是类内不变和可分的,这是因为这些属性中有一些噪声或者还有一些过拟合的信息,本文提出了属性选择方法来解决这个问题

Face Model Compression by Distilling Knowledge from Neurons论文初读相关推荐

  1. Face Model Compression by Distilling Knowledge from Neurons 论文理解

    引入 一. 背景 为保证人脸识别技术的精度要求,需要大而复杂的单个或者组合的深度神经网络实现. 该技术欲迁移至移动终端与嵌入式设备中. 二. 解决方法 运用模型压缩技术,用小的网络去拟合大量数据.大型 ...

  2. Like What You Like: Knowledge Distill via Neuron Selectivity Transfer论文初读

    目录 摘要 引言 相关工作 深度网络压缩与加速 知识蒸馏 领域自适应 准备知识 一些符号 MMD(Maximum Mean Discrepancy) 神经元选择性迁移 出发点 公式 讨论 实验 在分类 ...

  3. 论文翻译:2021_语音增强模型压缩_Towards model compression for deep learning based speech enhancement...

    论文地址:面向基于深度学习的语音增强模型压缩 论文代码:没开源,鼓励大家去向作者要呀,作者是中国人,在语音增强领域 深耕多年 引用格式:Tan K, Wang D L. Towards model c ...

  4. Contrastive Model Inversion for Data-Free Knowledge Distillation

    Contrastive Model Inversion for Data-Free Knowledge Distillation Model inversion,其目标是从预训练的模型中恢复训练数据, ...

  5. Model Compression and Hardware Acceleration for Neural Networks A Comprehensive Survey

    神经网络的模型压缩和硬件加速:综述 摘要 由于摩尔定律的可预见的终结,在通用处理器的改进速度下降的背景下,特定领域的硬件正成为一个有前途的话题.机器学习,尤其是深度神经网络(DNN),因为其在各种人工 ...

  6. MODEL COMPRESSION VIA DISTILLATION AND QUANTIZATION

    MODEL COMPRESSION VIA DISTILLATION AND QUANTIZATION Abstract 1 INTRODUCTION 1.1 Background. 1.2.Cont ...

  7. 《Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs》论文阅读笔记

    <Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs>论文阅读笔记 主要挑战贡献: KG上的推理挑战主要 ...

  8. 论文笔记——Deep Model Compression Distilling Knowledge from Noisy Teachers

    论文地址:https://arxiv.org/abs/1610.09650 主要思想 这篇文章就是用teacher-student模型,用一个teacher模型来训练一个student模型,同时对te ...

  9. 深度学习模型压缩与优化加速(Model Compression and Acceleration Overview)

    1. 简介 深度学习(Deep Learning)因其计算复杂度或参数冗余,在一些场景和设备上限制了相应的模型部署,需要借助模型压缩.系统优化加速.异构计算等方法突破瓶颈,即分别在算法模型.计算图或算 ...

最新文章

  1. The target you are trying to run requires an OpenSSL implementation.
  2. 数字发行:电子书、电影、游戏、音乐
  3. hdu4421 2-sat(枚举二进制每一位)
  4. CentOS转的服务器磁盘规划
  5. 【Python】箱图boxplot--统计数据、观察数据利器
  6. Spark2.0流式处理读Kafka并写ES
  7. jQuery选择器之层级选择器
  8. 前端开发掌握nginx常用功能之rewrite
  9. 数据库知识:SQLServer变量相关知识介绍
  10. c标签判断true false jsp_Java学习知识点:小白如何掌握JSP技术?
  11. 万物皆可爬系列查看翻页翻到最后是什么
  12. python误删文件怎么恢复_记录一次脚本误删文件后恢复
  13. js当中null和{}区别
  14. 不定宽高的DIV,垂直水平居中
  15. linux下mysql数据库基础及客户端命令详解
  16. makefile--编译出现,未定义的字符
  17. 月薪3万Java优秀简历模板
  18. 微信小程序 启动页自动跳转
  19. 小散量化炒股记|只花几秒钟!多任务爬虫获取A股每日实时行情数据
  20. DNS是什么,修改几个数字就能提升网速?(转载)

热门文章

  1. Oracle gsd服务是什么,oracle11gRAC的oc4j和gsd服务都处于offline状态
  2. Linux root用户忘记密码的恢复方法
  3. 在vue中如何引入BMap
  4. XMC4800/4300入门:(1)常见问题汇总
  5. ASQ分析1-基于AQS自定义锁分析
  6. 浅谈客户感知管理价值的量化
  7. geogbra多选快捷键
  8. JVM学习笔记之字节码指令集
  9. h5页面自定义特殊字体
  10. 通过Matlab 使用 FFT 分析周期性数据