1 引言

 该论文是关于对抗样本可迁移性的文章。在该论文中,作者提出了一种可迁移注意力攻击(TAA\mathrm{TAA}TAA),该方法基于关注图像特定区域和特征对干净图像进行对抗扰动。另外,作者还将三元组损失函数引入到对抗样本的生成策略中,在攻击过程中干净图像被迭代地“推”离源类,同时随着攻击进行“拉”近到目标类,以实现对抗样本较高的可迁移性。实验结果表明,该方法不仅提高了对抗样本的可迁移性,而且保持了较高的白盒目标攻击成功率。

论文链接: https://ieeexplore.ieee.org/document/9430730/

2 背景知识

 Goodfellow\mathrm{Goodfellow}Goodfellow最先提出使用梯度信息在白盒条件下生成对抗样本的攻击方法FGSM\mathrm{FGSM}FGSM:
x′=x+ϵ⋅sign(∇xJ(x,y))x^{\prime}=x+\epsilon\cdot \mathrm{sign}(\nabla_x J(x,y))x′=x+ϵ⋅sign(∇x​J(x,y))sign(x)={1ifx>00ifx=0−1ifx<0\mathrm{sign}(x)=\left\{\begin{array}{ll}1& \mathrm{if} \text{ }x>0\\0 & \mathrm{if}\text{ }x=0\\-1&\mathrm{if}\text{ } x<0\end{array}\right.sign(x)=⎩⎨⎧​10−1​if x>0if x=0if x<0​其中xxx表示一个干净样本,ϵ\epsilonϵ为对抗扰动的大小,yyy表示真实地标签。对抗样本x′x^{\prime}x′是沿着损失函数J(x,y)J(x,y)J(x,y)关于样本的梯度的符号方向一步生成的。随之也演变出了一系列的方法,如I-FGSM\mathrm{I\text{-}FGSM}I-FGSM,MI-FGSM\mathrm{MI\text{-}FGSM}MI-FGSM,DI2-FGSM\mathrm{DI^2\text{-}FGSM}DI2-FGSM等。
 Kurakin\mathrm{Kurakin}Kurakin等人通过扩展单步FGSM\mathrm{FGSM}FGSM方法,并提出了迭代版本方法I-FGSM\mathrm{I\text{-}FGSM}I-FGSM,即多次在梯度方向上进行迭代生成对抗样本,具体的形式如下所示:x0′=xxt+1′=xt′+α⋅sign(∇xJ(xt′,y))\begin{aligned}x^{\prime}_0&=x\\x^{\prime}_{t+1}&=x^\prime_t +\alpha \cdot \mathrm{sign}(\nabla_x J(x^\prime_t,y))\end{aligned}x0′​xt+1′​​=x=xt′​+α⋅sign(∇x​J(xt′​,y))​其中α=ϵT\alpha=\frac{\epsilon}{T}α=Tϵ​,TTT为攻击迭代次数,I-FGSM\mathrm{I\text{-}FGSM}I-FGSM可以大大提高白盒攻击的成功率。
 Dong\mathrm{Dong}Dong等人提出了一个基于动量迭代攻击方法MI-FGSM\mathrm{MI\text{-}FGSM}MI-FGSM以此来提高对抗样本的迁移性,具体的公式如下所示gt+1=μ⋅gt+∇xJ(xt′,y)∥∇xJ(xt′,y)∥1xt+1′=xt′+α⋅sign(gt+1)\begin{aligned}g_{t+1}&=\mu \cdot g_t + \frac{\nabla_x J(x^{\prime}_t,y)}{\|\nabla_x J(x^{\prime}_t,y)\|_1}\\x^{\prime}_{t+1}&=x^\prime_t + \alpha \cdot \mathrm{sign}(g_{t+1})\end{aligned}gt+1​xt+1′​​=μ⋅gt​+∥∇x​J(xt′​,y)∥1​∇x​J(xt′​,y)​=xt′​+α⋅sign(gt+1​)​其中动量gtg_tgt​会积累前ttt次迭代的动量信息,其中衰减因子为μ\muμ。除此之外,Xie等人提出了一个新的方法DI2-FGSM\mathrm{DI^2\text{-}FGSM}DI2-FGSM,并首次在每次迭代中将随机变换应用到输入样本中。图像变换包括随机调整大小和填充,这会产生比以前的攻击方法具有更高迁移性的对抗样本。除了基于FGSM\mathrm{FGSM}FGSM的攻击方法之外,还提出了其他类型的生成对抗样本的方法。Deepfool\mathrm{Deepfool}Deepfool通过找到从干净样本到决策边界最近距离来生成对抗样本。C&W\mathrm{C\&W}C&W方法基于优化的方式攻击带有蒸馏防御的模型,具体的优化形式如下所示:∥x′−x∥p+c⋅max⁡(max⁡i≠tf(x′)i−f(x′)t,−k)\|x^{\prime}-x\|_p+c\cdot \max\left(\max\limits_{i\ne t}f(x^{\prime})_i-f(x^{\prime})_t,-k\right)∥x′−x∥p​+c⋅max(i​=tmax​f(x′)i​−f(x′)t​,−k)其中ttt表示目标类,f(⋅)f(\cdot)f(⋅)表示Softmax\mathrm{Softmax}Softmax函数,常数集ccc被用于二分查找,kkk是一个常数控制置信度。

3 论文方法

 在该论文中,作者提出一种新的黑盒有目标攻击,即可迁移注意力攻击(TAA\mathrm{TAA}TAA),该方法也可以对白盒模型进行攻击。令F(x):x∈Rn→y∈{1,⋯,k}F(x):x\in\mathbb{R}^n\rightarrow y\in\{1,\cdots,k\}F(x):x∈Rn→y∈{1,⋯,k}是一个分类器,该分类器将输入样本xxx映射到输出yyy,其中yyy表示的是干净样本xxx的真实标签。无目标攻击的目标是找到一个对抗样本x′=x+ηx^{\prime}=x+\etax′=x+η,并且使得F(x′)≠yF(x^{\prime})\ne yF(x′)​=y;有目标攻击的目的是误导分类器去预测为有目标类别F(x′)=ytF(x^{\prime})=y_tF(x′)=yt​,并且yt=yy_t=yyt​=y。为了使生成的对抗样本不可察觉,会对扰动进行约束,即∥x′−x∥p≤ϵ\|x^{\prime}-x\|_p\le \epsilon∥x′−x∥p​≤ϵ,其中∥⋅∥p\|\cdot\|_p∥⋅∥p​表示lpl_plp​范数,一般情况下,ppp的取值为000,111,222,∞\infty∞。在该论文中,作者采用三元组损失函数,它不仅可以最小化锚点样本与正样本之间的距离,并最大化锚点样本和负样本之间的距离,通过优化特征空间上的三元组损失函数来扰动图像信息和判别区域。
 Fl(x)F_l(x)Fl​(x)将一张图像xxx映射为第LLL层的隐向量。这里的损失函数利用三元组对(Fl(xla),Fl(xip),Fl(xin))(F_l(x_l^a),F_l(x_i^p),F_l(x_i^n))(Fl​(xla​),Fl​(xip​),Fl​(xin​))进行训练,其中正对(Fl(xia),Fl(xip))(F_l(x_i^a),F_l(x^p_i))(Fl​(xia​),Fl​(xip​))来自同一个类别,负对(Fl(xia),Fl(xip))(F_l(x^a_i),F_l(x^p_i))(Fl​(xia​),Fl​(xip​))来自不同的类别。Fl(xia)F_l(x_i^a)Fl​(xia​),Fl(xip)F_l(x^p_i)Fl​(xip​)和Fl(xin)F_l(x^n_i)Fl​(xin​)分别表示三元组损失函数中的锚点项,正项和负项。一般来说,来自同一类的图像应该靠近在一起,并在嵌入空间中形成许多分离良好的簇。 因此,三元组损失函数的目标是确保一个类的所有样本都将投影到嵌入空间中的单个点上,同时,锚点样本应该远离负样本。 三元组损失定义为如下所示:Ltri=∑i=1N[D(Fl(xia),Fl(xip))−D(Fl(xia),Fl(xin))+a]+L_{\mathrm{tri}}=\sum\limits_{i=1}^N[D(F_l(x^a_i),F_l(x^p_i))-D(F_l(x^a_i),F_l(x_i^n))+a]_{+}Ltri​=i=1∑N​[D(Fl​(xia​),Fl​(xip​))−D(Fl​(xia​),Fl​(xin​))+a]+​其中α∈R+\alpha \in \mathbb{R}^{+}α∈R+表示正样本对和负样本对的间隙,并且D(Fl(xi),Fl(xj))D(F_l(x_i),F_l(x_j))D(Fl​(xi​),Fl​(xj​))用于测量xix_ixi​和xjx_jxj​在隐特征空间之间的距离。三元组损失将源图像的特征推离源类并将其拉近目标类。

 论文中提出的可迁移注意力攻击是基于MI-FGSM\mathrm{MI\text{-}FGSM}MI-FGSM的传统攻击方法扩展而来,该方法通过在计算梯度中累积动量向量,使动量不受局部最优解的影响。又因为优化三元组损失而不是交叉熵损失会破坏潜在的表示空间,所以作者提出了两个版本的TAA算法,更直观的变体如下算法所示。

  • STAA\mathrm{STAA}STAA: 给定一个干净图片xax^axa,作者通过将xax^axa输入到LLL层截断的分类器中来生成锚特征fa{\bf{f}}^afa。为了使梯度尽可能大,对于fa{\bf{f}}^afa,作者找到最远的正特征fp{\bf{f}}^pfp和最近的负特征fn{\bf{f}}^nfn,利用三元组{fa,fp,fn}\{{\bf{f}}^a,{\bf{f}}^p,{\bf{f}}^n\}{fa,fp,fn}对训练损失函数。与MI-FGSM类似,该攻击使用迭代动量项向锚点图像添加对抗扰动。为了使对抗样本的分布与源图像保持一致,攻击在添加对抗扰动后将对抗样本截断到[0,1][0,1][0,1]范围内。
  • CTAA\mathrm{CTAA}CTAA: 正如上面STAA算法原理类似,攻击会选择最近的负样本和最远的正样本,以提供有用的梯度;CTAA是将锚点样本移近目标类簇的质心,攻击分别选择源类簇和目标类簇的质心,而不是最近点或最远点,选择LLL层簇的质心c{\bf{c}}c计算方法如下:c=1n∑i=1nFl(xi)s.t.F(xi)=yi\begin{aligned}&c=\frac{1}{n}\sum\limits_{i=1}^nF_l(x_i)\\&\mathrm{s.t.}\text{ }F(x_i)=y_i\end{aligned}​c=n1​i=1∑n​Fl​(xi​)s.t. F(xi​)=yi​​其中nnn是白盒模型正确分类的图像数,yiy_iyi​是xix_ixi​的真实标签。作者用目标类簇质心cn{\bf{c}}^ncn和源类簇质心cn{\bf{c}}^ncn来代替fp{\bf{f}}^pfp和fn{\bf{f}}^nfn。与STAA不同,STAA通过根据距离选择样本来最大限度地利用梯度,CTAA旨在引导对抗样本更靠近目标类簇的中心,这更有助于生成可迁移性和稳定性的有目标对抗样本。

 作者采用了一种新的策略,即通过将CNN的低层和高层信息分别结合起来,将两个三元组损失一起优化。通常,低层特征包含相对丰富的细节信息,而高层特征包含丰富的全局语义信息。最终的损失函数如下所示:Ltotal=Lj+LkLj=Ltri(Fj(xia),Fj(xip),Fj(xin))Lk=Ltri(Fk(xia),Fk(xip),Fk(xin))\begin{aligned}L_{\mathrm{total}}&=L_j + L_k\\L_j&=L_{\mathrm{tri}}(F_j(x_i^a),F_j(x_i^p),F_j(x_i^n))\\L_k&=L_{\mathrm{tri}}(F_k(x^a_i),F_k(x^p_i),F_k(x_i^n))\end{aligned}Ltotal​Lj​Lk​​=Lj​+Lk​=Ltri​(Fj​(xia​),Fj​(xip​),Fj​(xin​))=Ltri​(Fk​(xia​),Fk​(xip​),Fk​(xin​))​其中jjj和kkk表示模型的不同层,这种策略提高了对抗样本的可迁移性。
 可迁移性衡量由本地白盒模型生成的对抗样本迁移到黑盒模型的能力。目前评估对抗样本可迁移性的指标有两个:非目标迁移率(uTR\mathrm{uTR}uTR)和目标迁移率(tTR\mathrm{tTR}tTR)。uTR\mathrm{uTR}uTR是导致白盒模型和黑盒模型被对抗样本误分类的百分比,而tTR\mathrm{tTR}tTR是由白盒模型生成导致黑盒模型预测也误分类到目标类的目标对抗样本的百分比。具体公式如下所示:uTR@n=1n∑i=1nI(Fb(xi′)≠y)s.t.xi′∈DerrortTR@n=1n∑i=1nI(Fb(xi′)≠yt)s.t.xi′∈DtSuc\begin{aligned}\mathrm{u}TR@n &=\frac{1}{n}\sum\limits_{i=1}^n\mathbb{I}(F^b(x^{\prime}_i)\ne y)\quad\mathrm{s.t.}\text{ }x^{\prime}_i\in D_{\mathrm{error}}\\ \mathrm{t}TR@n & =\frac{1}{n}\sum\limits_{i=1}^n \mathbb{I}(F^b(x^{\prime}_i)\ne y_t)\quad \mathrm{s.t.}\text{ }x^{\prime}_i\in D_{\mathrm{tSuc}}\end{aligned}uTR@ntTR@n​=n1​i=1∑n​I(Fb(xi′​)​=y)s.t. xi′​∈Derror​=n1​i=1∑n​I(Fb(xi′​)​=yt​)s.t. xi′​∈DtSuc​​其中,DErrorD_{\mathrm{Error}}DError​和DtSucD_{\mathrm{tSuc}}DtSuc​是根据对抗样本的置信度排序的集,分别通过误差公式和tSuc\mathrm{tSuc}tSuc公式计算得到。FbF^bFb表示黑盒神经网络。I\mathbb{I}I表示如果满足以下条件,则条件函数为111,否则为000。

实验结果

 下面三个表格分别是论文中的方法与当前最先进方法的比较结果,其中第一张表格为白盒攻击结果,第二三张表格为黑盒攻击结果。下表格中→\rightarrow→表示左模型生成的对抗样本输入到右模型中。如下第一张表格可以发现,动量方法中的MI-FGSM\mathrm{MI\text{-}FGSM}MI-FGSM和DI2-FGSM\mathrm{DI^2\text{-}FGSM}DI2-FGSM仍然是白盒攻击中的最佳方法,它以几乎100%100\%100%的错误率和tSucw\mathrm{tSuc}_wtSucw​攻击成功所有网络。又可以发现论文中提出的标准TAA\mathrm{TAA}TAA方法的性能要优于AA\mathrm{AA}AA,tSuc\mathrm{tSuc}tSuc率要高达63.02%63.02\%63.02%,并且在所有网络中都实现了100%100\%100%的误差,在所有场景中,质心TAA\mathrm{TAA}TAA的性能甚至优于标准TAA\mathrm{TAA}TAA。这验证了论文中的方法可以处理在特征空间上复杂的数据集中白盒有目标攻击的低成功率,因为其同时考虑了将对抗样本从源类进行推离并拉近目标类。从第二张表格可以看出,在黑盒攻击中标准TAA\mathrm{TAA}TAA和质心TAATAATAA在所有指标上都优于其他方法,并且从第三张表格可以发现,质心TAA\mathrm{TAA}TAA实现了最高的性能。



 如下图所示为定性的结果,给定一个干净的图像,该图像被网络正确分类,通过可以迁移注意力攻击获得相应的对抗样本,左栏是要攻击的干净图像,浅蓝色条是图像的真实标签分布。而右栏是论文方法的结果,可以发现如亮绿色条所示,对抗样本被分类为目标类。

 从下图是进一步论文方法生成的定性可视化结果,选择锚(a)、正(b)和负(c)样本作为三重态对的输入,作者通过可迁移注意攻击获得相应的对抗样本(d)。

 如下图所示,具有不同结构的白盒模型和黑盒模型仍然依赖于相似的注意图,这就是为什么对抗样本可以在黑盒模型之间进行迁移。另外,这些注意图在潜在表征空间上受到干扰,以增强对抗样本的可迁移性。

Push Pull:注意力攻击生成可迁移对抗样本相关推荐

  1. 论文阅读-可迁移对抗样本攻击

    我的博客已全部迁往个人博客站点:oukohou.wang,敬请前往-- paper:Transferable Adversarial Attacks for Image and Video Objec ...

  2. 可迁移注意力攻击(TAA)

    关注公众号,发现CV技术之美 本文分享论文『Push & Pull: Transferable Adversarial Examples With Attentive Attack』,提出一种 ...

  3. FGPM:文本对抗样本生成新方法

    ©PaperWeekly 原创 · 作者|孙裕道 学校|北京邮电大学博士生 研究方向|GAN图像生成.情绪对抗样本生成 论文标题: Fast Gradient Projection Method fo ...

  4. 【对抗攻击论文笔记】对抗迁移性:Delving Into Transferable Adversarial Examples And Black-Box Attacks

    文章目录 论文概述 idea method 详细内容 摘要 1.介绍 2 对抗深度学习和可迁移性 2.1 对抗深度学习问题 2.2 对抗样本生成的方法 2.3 评估方法 3. 非定向对抗样本 3.1 ...

  5. 后门攻击与对抗样本攻击的比较研究

    目录 一.Introduction 1.什么是后门攻击? 2.什么是对抗样本攻击? 3.后门攻击与对抗样本攻击的区别 4.补充数据投毒攻击 二.思维导图 三.应用场景 1.对抗样本攻击应用场景 2.后 ...

  6. ACL2020 | 使用强化学习为机器翻译生成对抗样本

    2020-07-12 03:08:49 本文介绍的是 ACL 2020 论文<A Reinforced Generation of Adversarial Examples for Neural ...

  7. 论文盘点:GAN生成对抗样本的方法解析

    ©PaperWeekly 原创 · 作者|孙裕道 学校|北京邮电大学博士生 研究方向|GAN图像生成.情绪对抗样本生成 引言 对抗样本的生成方式很多.一般情况下会分成三大类,第一种是基于梯度的生成方式 ...

  8. 对抗样本生成方法论文阅读笔记

    论文<针对黑盒智能语音软件的对抗样本生成方法> 一.论文中提到的相关名词解释 1.1什么是对抗样本? 所谓对抗样本就是指:在原始样本添加一些人眼无法察觉的扰动(这样的扰动不会影响人类的识别 ...

  9. 面向深度学习系统的对抗样本攻击与防御

    研究生涯即将开始,现在做的是对抗样本攻击与防御,开始每天写博客,记录一下自己的学习历程~ 1.对抗样本 尽管深度学习解决某些复杂问题的能力超出了人类水平,但也面临多种安全性威胁.2013年,塞格德等人 ...

最新文章

  1. 从起源、变体到评价指标,一文解读NLP的注意力机制
  2. 经典算法题每日演练——第二十一题 十字链表
  3. 【NLP】到目前为止,机器学习与自然语言处理相遇的那些事
  4. word文档老是出现这个提示-----“发现二义性的名称:TmpDDE”错误
  5. 《Agile Impressions》作者问答录
  6. c++中的lambda特性
  7. springboot static访问不到_Spring Boot 的静态资源处理
  8. MyBatis教程目录
  9. Ajax提交表单时获取不到 KindEditor 内容
  10. 自己动手写操作系统 ----总计
  11. SQLMAP使用教程(一)
  12. Java数字转大写金额格式小程序代码
  13. iOS-APP-运行时防Crash工具XXShield练就
  14. 随机读写 vs 顺序读写
  15. c#打开数据库连接池的工作机制_详解数据库连接池概念、原理、运行机制等
  16. 长短期记忆网络(LSTM)
  17. 北理网课 - Python语言程序设计 - 9.2 实例15:“霍兰德人格分析” (初学,冰山一角)
  18. java.sql.SQLException: Access denied for user ‘‘@‘localhost‘ (using password: YES)问题
  19. Andrew Ng 的 Deep Learning 教程翻译
  20. 小白都能学会的Python基础 第五讲:综合实战1 - 商业实战之德勤笔试题

热门文章

  1. 视频转码编辑工具:Compressor for Mac(4.5.4)
  2. 浏览器插件:脚本注入插件Tampermonkey(油猴)
  3. 基于单片机干湿垃圾自动分类系统-毕设课设资料
  4. 新手怎么开通抖音小店?详细操作步骤分享,建议收藏
  5. 大厂“P8/P9”必读《成为思维高手》pdf 电子书下载
  6. 使用Navicat快速生成数据库字典
  7. Docker进入/退出容器命令
  8. 见过贪婪的,没见过这么贪婪的
  9. 兰道尔原理(Laudauer‘s Principle)
  10. 基于matlab测量物体直径,基于MATLAB的零件尺寸检测误差分析的软件设计