Face Model Compression by Distilling Knowledge from Neurons论文初读

摘要

引言

方法

通过选择后的神经元训练学生网络

神经元的属性判别性定义（关系到上边两个函数如何定义）

Teacher和Student的网络结构

实验

测试方法

压缩T1模型

压缩模型T2

压缩集成模型T1

结论

摘要

对KD进行改进，不用soften的标签作为监督信息，而是用softmax前的神经元作为监督信息

利用学到的人脸特征的必备的特性，提出了一种选择和人脸特征相关性高的特征的方法（提出选择的方法）、

用这种选择的方法加上监督信息的改进，模型可以达到51.6X的压缩率，推理时间加快了90倍

引言

之前做法总结

用softmax函数后的概率值作为监督信息；

用softmax之前的零均质化后神经元的值作为监督信息；

有人指出前两种做法都存在极限输出，一个是1一个是正无穷，提出了soften标签作为监督信息；

但是在人脸识别中这些做法不收敛；

本论文的出发点

最后隐藏层的神经元的信息，和softmax后的信息一样多，但是更加的紧凑；

这些信息中含有跟人脸识别不相关的信息，所以需要剔除，剔除的方法来自于以下三个观察现象；

观察现象一：将神经元看成是人脸属性上的分布代表，有的神经元是身份相关的属性（IA），有的是身份不相关的（NA）

观察现象二：有一部分神经元是对NA敏感的，还有一些是IA与NA混杂敏感的，这表明神经元不是完全可分解的，而且这是网络对人脸识别任务的过拟合现象

观察现象三：有些神经元是与这所有的属性无关的，一直被抑制的，这属于噪音

本论文的贡献

高维度的soft标签是难以拟合的，而用更紧凑的监督信息可以帮助更快地收敛；

发现了三个观察现象

提出了一种有效的神经元的选择方法

方法

通过选择后的神经元训练学生网络

网络损失函数

fi表示teacher网络中选择的神经元

g表示从输入Ii到特征的函数映射

W表示student网络的参数

如何选择出fi

前半部分中的函数表示的含义是神经元的intra-personal variant（类内变化）程度，类内变化越大，惩罚越大。例如戴眼镜，对于某一个人来说是有带和不带两种状态，这个属性的intra-personal variant程度就比较大，而弯月眉来说，某一个人在任何情况下都是这一种状态，这个属性的intra-personal variant程度就比较小

后半部分中的函数表示两个神经元的不相似性，如果它们相似性越大，惩罚越大。

，

y表示神经元，x表示该神经元的一个向量，用来帮助描述该神经元的intra-personal variant程度

整个式子表示，要选择出类内不变并且相似度小的那些神经元

神经元的属性判别性定义（关系到上边两个函数如何定义）

深度人脸识别任务可以看成在人脸属性上的分布表示

T1具有属性敏感性

从Figure1可以看出，T1的神经元是具有属性敏感性的，而LBP,HOG是不具有这个特性的（这里通过将LBP或者HOG的特征的某一维作为属性判别器来实现）

神经元可能是多属性相关的

对于Figure2（a）

通过将某个神经元的激活值分组到小中大三组，然后平均化每一组内的输入得到的图像，最后认为标注最符合该神经元的属性。这表明一个神经元是可能和多个属性有关系的。

神经元的向量表示方法

根绝CelebA数据集上的40个属性来定义x

j表示x向量的第几维，也就是关于第几个属性的值，TP表示真正率，TN表示真负率

这种分布表示既不是类内不变也不是可分解的

对于Figure2（b）

随机挑选了80个神经元，跟据在40个属性上激活值的情况将他们分为四个类别：IA,NA,(IA+NA),inhibit

NA表示这种分布表示不是类内不变的

IA+NA的属性占了1/4，这表明这种分布表示不是可分解的

有些神经元是对所有的属性都没有反应的，这部分神经元可以看作是噪音

Figure 2（b）中的inhibit神经元

总结

这个定义是等式二中的前半部分中的函数，如果一个神经元对NA更加敏感，那么它的惩罚就越大

神经元的选择最后是通过一种叫做mean field algorithm的算法来求得的

结合等式二后半部分的含义，最后会选择出类内不变并且相似性小的那些神经元

Teacher和Student的网络结构

c为student网络，网络的输出为12K，前一层的输出为512

12K是用soften target（不是KD）来监督

512是通过选择后的teacher的属性来监督学习的，论文中说用logits，应该是引言中提到的神经元的值经过零均值化后的值

实验

测试方法

通过训练好的模型的最后隐藏层的神经元与知识库中的一张图片对比距离，若距离大于阈值，则不是这个人，否则，是这个人

压缩T1模型

模型效果

S-neurions是选用所有的顶层隐藏层单元的值作为监督信息（应该是均值化过的）

S-selection是通过本文的方法选择过的顶层隐藏层单元的值作为监督信息（应该是均值化过的）

S-1-of-K是通过交叉熵和辅助的属性信息来训练的

S-soft是通过软标签的方式来训练的，当趋于无穷大时，等价于用输出的logits作为监督信息

S-1-of-K是为了对比说明S-selection和S-neurons的提升是利用了更好的监督，而不是属性信息的作用

模型收敛速度

从图六可以看出soft target要比hard target收敛快，这是因为soft target含有更多的信息

在soft target中，t越大收敛越快，而t=inf时，等价于logits的平方差损失，这说明logits含有更紧凑的信息

S-selection帮助模型减少了target数量，收敛速度变快

压缩模型T2

S-selection的效果虽然没有T1好，但是经过微调后还是可以超过T1的

深度的网络还是比较难调的

压缩集成模型T1

S代表Student

结论

在识别任务中，软硬标签都是难以拟合的，因为维度太大。而最后一层隐藏层更适合用于监督信息，因为它跟软或硬标签拥有同样多的信息，但是更加紧凑，从收敛速率上就可以看出这一点

人脸识别任务可以看成在属性集上的一种分布表示，但是这中分布并不是类内不变和可分的，这是因为这些属性中有一些噪声或者还有一些过拟合的信息，本文提出了属性选择方法来解决这个问题