借助多标签分类器进行对抗训练

1 摘要

当前深度模型抵御对抗攻击最有效的方式就是对抗训练，神经网络在训练的过程中通过引入对抗样本使得模型具有一定的鲁棒性。目前对抗训练的研究方向主要集中在多分类任务中的训练方式上，本文尝试借助多标签分类器来对多分类器进行对抗训练，其中多分类任务和多标签任务的区别可以从文章《多标签分类器（附pytorch代码）》中知晓。举个例子，一张人脸图片会显示很多标签信息，比如会有姓名，性别，年龄，情绪等标签信息，按照本文的想法就是首先训练出一个关于性别，年龄的多标签分类器，利用这个多标签分类器对关于姓名这个多分类器进行对抗训练。带着这个想法展开本文章的理论分析和实验验证。

2 方法介绍

2.1 多分类任务对抗样本

给定一个样本图片x∈Rnx\in\mathbb{R}^{n}x∈Rn，对应的多分类任务的标签向量y=(y1,⋯,yc)⊤y=(y_1,\cdots,y_c)^{\top}y=(y1,⋯,yc)⊤，其中∑i=1cyi=1,yi∈{0,1}\sum\limits_{i=1}^c y_i=1,\quad y_i\in\{0,1\}i=1∑cyi=1,yi∈{0,1}批量的样本数据xxx和对应的标签向量yyy训练一个多分类器fθf_{\theta}fθ，且有fθ:x⟶y^f_{\theta}:x\longrightarrow \hat{y}fθ:x⟶y^，其中y^∈Rc\hat{y}\in \mathbb{R}^{c}y^∈Rc是多分类任务的预测标签向量，θ\thetaθ是多分类器的参数。Lθ(⋅,⋅)L_{\theta}(\cdot,\cdot)Lθ(⋅,⋅)是多分类器的损失函数，一般情况下Lθ(⋅,⋅)L_{\theta}(\cdot,\cdot)Lθ(⋅,⋅)会选择多元交叉熵损失函数。干净样本xxx的对抗样本xθ′x_{\theta}^{\prime}xθ′的计算公式为xθ′=x+α1⋅sign(∂Lθ(fθ(x),y)∂x)x^{\prime}_{\theta}=x + \alpha_1 \cdot \mathrm{sign}\left(\frac{\partial L_{\theta}(f_{\theta}(x),y)}{\partial x}\right)xθ′=x+α1⋅sign(∂x∂Lθ(fθ(x),y))其中sign(⋅)\mathrm{sign}(\cdot)sign(⋅)是符号函数，α1\alpha_1α1是针对多分类器的对抗扰动的步长。

2.2 多标签任务对抗样本

给定一个样本图片x∈Rnx\in\mathbb{R}^{n}x∈Rn，对应的多标签任务的标签向量为z=(z1,⋯,zl)⊤z=(z_1,\cdots,z_l)^{\top}z=(z1,⋯,zl)⊤，其中0≤∑i=1lzi≤l,zi∈{0,1}0\le\sum\limits_{i=1}^{l}z_i\le l,\quad z_i\in \{0,1\}0≤i=1∑lzi≤l,zi∈{0,1}批量样本数据xxx和对应的标签向量zzz训练一个多标签分类器gφg_{\varphi}gφ，且有gφ:x⟶z^g_{\varphi}:x\longrightarrow \hat{z}gφ:x⟶z^，其中z^∈Rl\hat{z}\in \mathbb{R}^{l}z^∈Rl是多标签任务的预测标签向量，φ\varphiφ是多标签分类器的参数。Lφ(⋅,⋅)L_{\varphi}(\cdot,\cdot)Lφ(⋅,⋅)是多标签分类器的损失函数，一般情况下Lφ(⋅,⋅)L_{\varphi}(\cdot,\cdot)Lφ(⋅,⋅)会选择二元交叉熵损失函数。干净样本xxx的对抗样本xφ′x_{\varphi}^{\prime}xφ′的计算公式为xφ′=x+α2⋅sign(∂Lφ(gφ(x),z)∂x)x^{\prime}_{\varphi}=x + \alpha_2 \cdot \mathrm{sign}\left(\frac{\partial L_{\varphi}(g_{\varphi}(x),z)}{\partial x}\right)xφ′=x+α2⋅sign(∂x∂Lφ(gφ(x),z))其中α2\alpha_2α2是针对多标签分类器的对抗扰动的步长。

2.3 双分类器对抗训练

将多分类器损失函数Lθ(⋅,⋅)L_{\theta}(\cdot,\cdot)Lθ(⋅,⋅)和多标签分类器损失函数Lφ(⋅,⋅)L_{\varphi}(\cdot,\cdot)Lφ(⋅,⋅)整合为L(⋅,⋅)L(\cdot,\cdot)L(⋅,⋅)，则有公式L(⋅,⋅)=γ1⋅Lθ(⋅,⋅)+γ2⋅Lφ(⋅,⋅)L(\cdot,\cdot)=\gamma_1\cdot L_{\theta}(\cdot,\cdot) + \gamma_2 \cdot L_{\varphi}(\cdot,\cdot)L(⋅,⋅)=γ1⋅Lθ(⋅,⋅)+γ2⋅Lφ(⋅,⋅)其中γ1\gamma_1γ1和γ2\gamma_2γ2平衡洗漱。则根据损失函数LLL可得到可到对抗样本x′x^{\prime}x′，该对抗样本即可以攻击多分类器fθf_{\theta}fθ，也可以攻击多标签分类器gφg_{\varphi}gφ，具体的计算公式为xadv=x+α⋅sign(γ1⋅∂Lθ(fθ(x),y)∂x+γ2⋅∂Lφ(gφ(x),z)∂x)x^{adv}=x+\alpha \cdot \mathrm{sign}\left(\gamma_1 \cdot \frac{\partial L_{\theta}(f_{\theta}(x),y)}{\partial x}+ \gamma_2 \cdot \frac{\partial L_{\varphi}(g_{\varphi}(x),z)}{\partial x}\right)xadv=x+α⋅sign(γ1⋅∂x∂Lθ(fθ(x),y)+γ2⋅∂x∂Lφ(gφ(x),z))其中α\alphaα表示的是对抗扰动的步长。利用对抗样本x′x^{\prime}x′对多分类器fθf_{\theta}fθ进行对抗训练，具体原理示意图如下所示：

根据以上原理示意图，双分类器对抗训练的方式可以分为如下两种

第一种方式是先生成可以同时攻击多标签分类器gφg_{\varphi}gφ和多分类器fθf_{\theta}fθ的对抗样本xadvx^{adv}xadv，然后固定多标签分类器gφg_{\varphi}gφ的参数φ\varphiφ，用对抗样本xadvx^{adv}xadv对多分类器fθf_\thetafθ的参数θ\thetaθ进行对抗训练，相应的对抗训练的优化目标为min⁡θmax⁡xadvγ1⋅Lθ(fθ(xadv),y)+γ2⋅Lφ(gφ(xadv),z)⟶θ∗\min\limits_{\theta}\max\limits_{x^{adv}}\gamma_1\cdot L_{\theta}(f_{\theta}(x^{adv}),y) + \gamma_2 \cdot L_{\varphi}(g_{\varphi}(x^{adv}),z)\longrightarrow \theta^{*}θminxadvmaxγ1⋅Lθ(fθ(xadv),y)+γ2⋅Lφ(gφ(xadv),z)⟶θ∗相应的算法流程图如下所示
第二种方式首先也是要生成可以同时攻击多标签分类器gφg_{\varphi}gφ和多分类器fθf_{\theta}fθ的对抗样本xadvx^{adv}xadv，然后用对抗样本xadvx^{adv}xadv同时对多分类器fθf_\thetafθ的参数θ\thetaθ和多标签分类器gφg_{\varphi}gφ的参数φ\varphiφ进行对抗训练，相应的对抗训练的优化目标为min⁡θ,φmax⁡xadvγ1⋅Lθ(fθ(xadv),y)+γ2⋅Lφ(gφ(xadv),z)⟶θ∗,φ∗\min\limits_{\theta,\varphi}\max\limits_{x^{adv}}\gamma_1\cdot L_{\theta}(f_{\theta}(x^{adv}),y) + \gamma_2 \cdot L_{\varphi}(g_{\varphi}(x^{adv}),z)\longrightarrow \theta^{*}, \varphi^{*}θ,φminxadvmaxγ1⋅Lθ(fθ(xadv),y)+γ2⋅Lφ(gφ(xadv),z)⟶θ∗,φ∗相应的算法流程图如下所示

人脸表情对抗训练

本文利用AU\mathrm{AU}AU单元检测模型（多标签分类器）协助人脸表情识别模型（多分类器）进行对抗训练。人脸中各个AU\mathrm{AU}AU单元相关描述如下图所示

人脸的基本表情有Angry\mathrm{Angry}Angry，Disgust\mathrm{Disgust}Disgust，Fear\mathrm{Fear}Fear，Happy\mathrm{Happy}Happy，Sad\mathrm{Sad}Sad，Surprise\mathrm{Surprise}Surprise和Comtempt\mathrm{Comtempt}Comtempt。人脸基础表情与AU\mathrm{AU}AU单元之间的关系示意图和相应的计算公式如下所示

{Happy=AU6+AU12Sad=AU1+AU4+AU5Surprise=AU1+AU2+AU5+AU6Fear=AU1+AU2+AU4+AU5+AU7+AU20+AU26Anger=AU4+AU5+AU7+AU23Disgust=AU9+AU15+AU16Contempt=AU12+AU14\left\{\begin{aligned}\mathrm{Happy}&=\mathrm{AU6}+\mathrm{AU12}\\\mathrm{Sad}&=\mathrm{AU1}+\mathrm{AU4}+\mathrm{AU5}\\\mathrm{Surprise}&=\mathrm{AU1}+\mathrm{AU2}+\mathrm{AU5}+\mathrm{AU6}\\\mathrm{Fear}&=\mathrm{AU1}+\mathrm{AU2}+\mathrm{AU4}+\mathrm{AU5}+\mathrm{AU7}+\mathrm{AU20}+\mathrm{AU26}\\\mathrm{Anger}&=\mathrm{AU4}+\mathrm{AU5}+\mathrm{AU7}+\mathrm{AU23}\\\mathrm{Disgust}&=\mathrm{AU9}+\mathrm{AU15}+\mathrm{AU16}\\ \mathrm{Contempt}&=\mathrm{AU12}+\mathrm{AU14}\end{aligned}\right.⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧HappySadSurpriseFearAngerDisgustContempt=AU6+AU12=AU1+AU4+AU5=AU1+AU2+AU5+AU6=AU1+AU2+AU4+AU5+AU7+AU20+AU26=AU4+AU5+AU7+AU23=AU9+AU15+AU16=AU12+AU14