©PaperWeekly 原创 · 作者 | 何玄黎

单位 | 伦敦大学学院(UCL)

研究方向 | 自然语言处理

论文标题:

CATER: Intellectual Property Protection on Text Generation APIs via Conditional Watermarks

收录会议:

NeurIPS 2022

论文链接:

https://arxiv.org/abs/2209.08773

代码链接:

https://github.com/xlhex/cater_neurips

研究背景

模型窃取(imitation attack)旨在窃取远程 APIs,并将其本地化。一旦模型本地化以后,模型窃取者即可免费使用该模型,无需继续支付相关服务费,亦或者将窃取的模型作为低价且高性能的 APIs 发布,进而快速占领相关市场。早期对于模型窃取的研究主要停留在实验室假设,研究者们通过模拟实验验证了模型窃取的可行性。近年来,研究者们(Wallace et al. 2020, Xu et al. 2022)发现模型窃取不仅局限在模拟实验场景,同时能成功窃取商用 APIs 的性能,并且在特定的场景下,仿制模型(imitation model)可以远超远程 APIs 的性能(Xu et al. 2022)。

尽管目前模型窃取的危害已经得到了广泛研究,但是如何有效地保护受害模型免受模型窃取攻击,依然是一个尚未解决的问题,尤其是在文本生成的任务里。相较于分类任务,文本任务的输出必须是一串语义语法合规的文字,因此分类问题中通过改变各个类别分布的保护措施在此处并不适用。此外,研究者们提出在返回模型结果的过程中,对于部分数据,返回错误的预测,以此实现后门注入。

如若一个被怀疑的模型对于后门数据的预测和此前错误预测一致,则可认为此模型大概率是通过模型窃取所得。不过,此后门注入的方法存在着三个缺陷。

第一,为实现后门检测,受害模型需要存储大量后门数据。考虑到常见的商业 API 通常每秒至少需要提供上百万次服务,后门数据的存储必将极大增加 API 提供者的成本。第二,被怀疑模型使用过的数据对于受害模型是未知,因此受害模型需要检测所有的后门数据。该检测过程也会增加受害模型的防御成本。若被怀疑模型采取收费模式,检测成本亦会随之上升。第三,受害模型通过提供可靠且高性能的服务从而实现盈利。若受害模型的输出存在错误预测,可能会降低用户的满意度,从而导致用户流失,进而影响市场竞争力。

基于此,He et al. 2022 提出采用基于词法的水印技术来保护受害模型的版权。该水印技术可以有效验证被怀疑的文本生成模型是否为窃取所得,并且尽最大限度保证受害模型的服务质量,同时无需存储任何来自用户的数据。但是,笔者发现,此方法可以通过逆向工程破解,从而导致水印失效。具体而言,笔者通过对比加过水印的数据和正常数据上的词频分布,即可发现水印。如图 1 所示,因为水印词和原词的词频在水印数据和正常数据存在巨大差异,只需将这些异常词做同义词替换,即可去除水印。

▲ 图1. 对比水印词词频在水印数据(He et al.)和正常数据上的变化。红色标记词即为水印词

因此本文提出一种基于条件要素的水印方法(__CATER__:Conditional wATERmarking),从而选择性地对受害模型的输出进行水印保护,以此实现难以察觉和不可逆向工程的版权保护。

模型介绍

▲ 图2. CATER的保护和检测过程

之前的水印技术失效的主要原因在于破坏了水印词和原有词的词频分布,导致水印秘钥的泄露。因此,如图 2 所示,CATER 采取选择性水印,即只有当条件触发时,受害模型的输出才会打上水印。为了实现水印及其秘钥保护,笔者提出了一个新的优化目标函数:

该目标函数由两部分组成,第一部分是 indistinguishable objective,主要是为保证水印前后,目标词(即水印词)的整体词频不会发生较大变化。第二部分为 distinct objective,该目标函数是为了确保,在指定的条件 下,目标词的词频在水印前后不一致,从而实现水印后的检测目的。

2.1 水印实现

遵循 He et al.,本文采用多组同义词进行水印保护。具体而言,对每一组同义词 ,笔者将目标函数转化成一个混合整数线性规划模型(mixed integer linear programming)进行求解:

此处 是我们求解的最终水印, 和 则是通过计算训练集里目标词和对应条件的频率得到。

2.2 基于语言特征的水印条件

如图 3 所示,笔者在具体实验中,主要考虑两类语言特征:1)词性(part-of-speech);2)依存句法树(dependency tree)。

▲ 图3. region在不同例句中,词性和依存语法树存在差异

假设我们采用 region 和 area 作为一组同义词的水印目标。对于词性而言,如果 region 的前一个词的词性是 PRON(参见第一个例句),则需将 region 替换为 area,否则不予替换 (参见第二个例句)。同样,给定句子的依存句法树,如若,region 和父节点的关系是 “nsubj”(参见例句 2 中的 “do”),那么 region 则替换为 area,否则保持不变。笔者研究了更多高阶语法作为水印条件,感兴趣的读者请阅读原文。

实验结果

笔者在机器翻译和文档摘要任务上对 CATER 的效果进行验证。两个任务使用的数据集分别是:WMT14(DE-EN)和 CNN/Dailymail。遵照 He et al.,笔者从两个角度来验证 CATER 的效果。

第一个测试维度是判断怀疑模型是否通过模型窃取得来。此处采用 null-hypothesis 作为检测依据。若水印词出现的频率越高,则 p-value 越低,那么怀疑模型愈发可能为通过模型窃取而得。具体计算步骤,请读者参考原文。第二个测试维度是仿制模型的文本生成的质量。如前文所述,水印的基本原则是最大限度保持受害模型的服务质量。因此仿制模型的文本生成质量越高,水印带来的负面影响越小。

3.1 基础实验

遵从模型窃取的基本设计思路,对于受害模型 (victim model)和仿制模型 (imitation model),笔者均采用同样的模型结构,即 Transformer-base。此外,受害模型和仿制模型的数据集来自同样的领域。

如表1所示,相较于没有采用水印的基线,CATER 不仅可以准确地识别防止模型,并且不会过多损害模型的生成效果 (参见 BLEU,BERTScore 以及 ROUGE)。虽然相较于 He et al., CATER 的 p-value 略微较差,但是能更好地隐藏水印词,避免水印词被攻击者发现并移除(参考图 1 和 4)。

▲ 表1. CATER和基线方法的对比

▲ 图4. 水印词词频在水印数据(CATER)和正常数据上的变化

3.2 模型不匹配情境下的版权保护

前文假设,受害模型和仿制模型均采用同样的模型结构。然而在现实情况下,受害模型对于攻击者而言是黑盒子。因此,受害模型和仿制模型的模型结构可能不一致。为验证 CATER 在模型不匹配情境下的版权保护效果,笔者采用 BART 结构作为受害模型,对于仿制模型,采用三种常用文本生成模型:1)BART, 2)Transformer 和 3)ConvS2S。

▲ 表2. CATER在模型不匹配情境下的版权保护效果

如表 2 所示,CATER 的效果并不受限于模型,即使受害模型和仿制模型的模型结构不一致,CATER 也能有效地进行版权保护。

3.3 跨领域窃取情境下的版权保护

同样,前文假设受害模型和仿制模型均采用同样领域的数据。同理,现实情况,受害模型的训练数据对于攻击者通常是未知的。因此,攻击者可能使用跨领域的数据,从而导致水印失效。为验证 CATER 在跨领域窃取情境下的版权保护效果,笔者在机器翻译任务上进行实验验证。对于受害模型,训练数据依然采用 WMT14,至于仿制模型的数据,笔者采用 IWSLT14(tedtalk)以及 OPUS (Law)。如表 3 所示,即使攻击者使用不同领域的数据进行模型窃取,CATER 依旧能有效地保护受害模型的版权。

▲ 表3: CATER在跨领域窃取情境下的版权保护效果

3.4 CATER在适应式攻击下的效果

前文研究了 CATER 在通常攻击模式下的效果,但是攻击者在进行模型窃取时,可能会得到一些先验信息,比如受害模型会对输出进行水印保护,更有甚者,通过特殊渠道获知了具体的算法。因此,笔者亦对此适应式攻击也进行了研究。笔者首先考虑的是,攻击者在不知道具体算法的情境下,使用抵抗数据毒药(data poisoning)的方法(本文采用 ONION (Qi et al.))进行水印移除。如表 4 所示,使用 ONION 进行攻击时,无法很好地移除水印,并且仿制模型的性能会受到损害。

▲ 表4. CATER在使用ONION进行攻击时的效果

其次,笔者也对算法泄露场景下的攻击进行评估。在算法泄露的场景下,攻击者知悉水印的词典来自 wordnet 的同义词,同时也获悉水印触发条件为目标词前一个词的词性,但是不清楚具体是哪些同义词组合是水印。基于此先验信息,攻击者得到受害模型的输出后,可以对数据进行分析,从而得到潜在的水印,即任意一组同义词,有且仅有一个词在给定条件下,该词的词频不为零,其余皆为零。满足此条件的一组同义词,笔者称其为 sparse entry。

如图5所示,攻击者怀疑的 sparse entries(Watermarking Algorithm Leakage)的数量远远超过真实的数量(CATER),因此攻击者几乎难以通过逆向工程来获取并移除掉水印,尤其是当受害模型采用高阶 CATER 进行版权保护时。此外,笔者在原文中也在论文中严格证明了逆向工程的难度。

▲ 图5. Sparse entries在不同阶CATER下的真实数量和算法泄露后得到疑似数量。Upper bound是词性在不同阶CATER下的组合结果

结论

之前关于模型窃取的研究集中在攻击者的角度,但是鲜有工作涉及到对模型窃取的防御,尤其是在文本生成模型上。鉴于模型窃取对于商业 APIs 的重大危害,本文提出如何有效通过基于条件的水印算法(CATER)来保护受害模型的版权。笔者通过大量的测试场景,充分验证了 CATER 的保护效果。笔者希望借由 CATER 的有效性,提醒商业 APIs 的开发者采取有效保护措施,从而避免模型窃取而带来的合法权益的损失。

参考文献

[1]. Eric Wallace, Mitchell Stern, and Dawn Song. "Imitation Attacks and Defenses for Black-box Machine Translation Systems." EMNLP, 2020

[2] Qiongkai Xu, Xuanli He, Lingjuan Lyu, Lizhen Qu, and Gholamreza Haffari. "Beyond model extraction: Imitation attack for black-box nlp apis." COLING, 2022

[3]. Xuanli He, Qiongkai Xu, Lingjuan Lyu, Fangzhao Wu, and Chenguang Wang. "Protecting intellectual property of language generation apis with lexical watermark." AAAI, 2022.

[4]. Fanchao Qi, Yangyi Chen, Mukai Li, Yuan Yao, Zhiyuan Liu, and Maosong Sun. “ONION: A Simple and Effective Defense Against Textual Backdoor Attacks”. EMNLP, 2021

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

NeurIPS 2022 | CATER:针对模型窃取的版权保护之选择性水印相关推荐

  1. NeurIPS 2022 | 清华提出P2P:基于预训练图像模型的点到像素提示学习方法

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 在这里和大家分享一下我们被NeurIPS 2022录用的点云理解工 ...

  2. NeurIPS 2022 | Stable Diffusion采样速度翻倍!清华提出扩散模型高效求解器

    ©作者 | 机器之心编辑部 来源 | 机器之心 清华大学计算机系朱军教授带领的 TSAIL 团队提出 DPM-Solver(NeurIPS 2022 Oral,约前 1.7%)和 DPM-Solver ...

  3. [2022 SP] Copy, Right? 深度学习模型版权保护的测试框架

    Copy, Right? A Testing Framework for Copyright Protection of Deep Learning Models | IEEE Conference ...

  4. NeurIPS 2022|UIUC联合哥伦比亚大学提出VidIL模型,通吃小样本视觉语言任务

    原文链接:https://www.techbeat.net/article-info?id=4205 作者:seven_ 近来,视觉语言模型(video-language models)已经成为多模态 ...

  5. NeurIPS 2022 | 能量函数指导的图图翻译扩散模型

    EGSDE 扩散模型作为一种新的深度生成模型,在图像生成领域取得了 SOTA 的效果,并且逐渐在诸多应用领域展现出强大的性能,如视频生成.分子图建模等. 最近来自人民大学李崇轩课题组的研究者们提出了一 ...

  6. NeurIPS 2022 Oral | 摘下悬在神经网络上的达摩克利斯之剑:从模型层面获得对抗鲁棒性保证...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->CV微信技术交流群 本文是NeurIPS 2022入选论文Rethinking Lipsc ...

  7. NeurIPS 2022 | 一句话让3D模型生成逼真外观风格!精细到照片级细节!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:机器之心 来自华南理工大学.香港理工大学.跨维智能.鹏城实 ...

  8. NeurIPS 2022 | 当AI遇上量子化学:腾讯Al Lab冠军模型提升27%

    感谢阅读腾讯 AI Lab 微信号第 159 篇文章.本文为腾讯 AI Lab 在 NeurIPS 2022 第二届 Open Catalyst Challenge (OCP)竞赛中夺冠的解决方案解析 ...

  9. 全球博士Talk NeurIPS 2022 预讲会完美收官,27位博士生共话机器学习前沿研究

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! NeurIPS,全称神经信息处理系统大会,是关于机器学习和计算神经科学的国际会议.该会议固定在每年的12月举行,由NeurIPS基金会主 ...

最新文章

  1. 23. matlab并行计算原理以及parpool函数
  2. 11月21日spring mvc的表单校验培训日记
  3. [INS-08109] Unexpected error occurred while validating inputs at state 'getOCMDetails'.
  4. win7查看电脑ip地址的方法
  5. dj电商-模型类设计-1.x-模型类抽象基类
  6. Colidity-- Dominator
  7. Python3 Socket和SocketServer 网络编程
  8. 玩家国度ROG 幻14 拆机 升级 换固态 换配件 教程
  9. MediaBuffer使用要点
  10. cent os7 安装nginx1.16.1
  11. mysql_query扩展_前端学PHP之mysql扩展函数
  12. 【JavaScript知识点五】javascript 流程语句
  13. 计算机组成原理讲义 微盘,计算机组成原理课件.pdf
  14. JAVA程序入门(✨详解✨)
  15. 数字图像处理(4)——图像复原
  16. DIOCP之DEMO-登陆验证设计(二)
  17. 前沿重器[4] | 腾讯搜索的Quer理解如何直击心灵
  18. 阅读《我喜欢生命本来的样子》完(四)
  19. 电脑编程入门自学java_电脑编程入门自学Java指南
  20. 什么TO B类销售 TO B这个行业的销售好做吗

热门文章

  1. Esri Compressed Geometry 解码
  2. 如何成为一名AI算法工程师?
  3. Unity宏 + RSP文件定义宏
  4. 华为G525乐蛙刷机包 乐蛙第123期14.04.25 适配
  5. 计算机知识在小学教学中的应用ppt,浅谈PPT课件在小学数学课堂教学中的应用
  6. boost---介入式指针intrusive_ptr
  7. 硬核拆解Sea:新生代“阿里+腾讯+美团“的估值逻辑
  8. win7删除不了打印机该怎么办?win7删除打印机后刷新又出来的解决方法
  9. 使用AD绘制PCB板(快速入门)
  10. 面试官:MySQL事务的隔离性是如何实现的?