ABSTRACT

推荐系统通过从收集的数据中了解用户的个人偏好,提供基本的网络服务。然而,在许多情况下,系统还需要忘记一些训练数据。从隐私的角度来看,用户希望有一个工具来从训练过的模型中消除他们的敏感数据的影响。从实用程序的角度来看,如果一个系统的实用程序被一些坏的数据损坏了,系统需要忘记这些数据来重新获得实用程序。虽然遗忘非常重要,但在现有的推荐系统中还没有得到很好的考虑。虽然有一些研究对机器遗忘的问题进行了研究,但现有的方法由于不能考虑协作信息,因此不能直接应用于推荐。

在本文中,我们提出了RecEraser,一个针对推荐任务的通用和高效的机器学习框架。RecEraser的主要思想是将训练集划分为多个碎片,用这些碎片训练子模型。具体来说,为了保持数据的协作信息,我们首先设计了三种新的数据划分算法,将训练数据划分为平衡组。然后,我们进一步提出了一种自适应聚合方法来提高全局模型的效用。在三个公共基准上的实验结果表明,RecEraser不仅可以实现有效的遗忘,而且在模型效用方面优于最先进的遗忘方法。源代码可以在https://github.com/chenchongthu/Recommendation-Unlearning上找到

KEYWORDS

机器解除学习;选择性删除、推荐系统;协同过滤;

INTRODUCTION

推荐系统为用户提供个性化的服务,以缓解信息过载的问题,在电子商务[14,38]、社交媒体[8,10,16,48]、新闻门户[41]等广泛的应用中发挥着越来越重要的作用。个性化推荐系统的关键被称为协作过滤[28,31,37,42],它根据用户的历史记录(如查看、点击和评级)来学习用户的偏好。

一旦推荐系统建立起来,它就有可能记住训练数据。然而,在许多情况下,推荐系统还需要忘记某些敏感数据及其完整的血统,这在本文中被称为推荐遗忘。首先考虑隐私,最近的研究表明,用户的敏感信息可能从训练过的模型中泄露,如推荐系统[50]、大型预训练[4]和精细的自然语言模型[49]。在这种情况下,用户希望有一个工具来从训练过的模型中消除他们的敏感信息的影响。第二个原因是效用。如今,人们会逐步收集新的数据,以进一步完善现有的模型[51]。然而,不良数据(或称为脏数据),例如中毒攻击中的污染数据[33]或分布外(OOD)数据[3],将严重降低推荐的性能。一旦这些数据被识别出来,系统就需要忘记它们,以重新获得效用。此外,用户的偏好通常是动态的和可改变的[44]。例如,一个想要购买手机的用户会很高兴看到关于手机的推荐。但在购买后,她/他会在一段时间内对新手机的推荐不感兴趣。在这种情况下,用户将希望删除某些数据,以便系统能够提供更多有用的建议。

最简单的遗忘方法是在去除需要被遗忘的样本后,从原始数据中进行重新训练。.不幸的是,应用这种方法的困难在于对大规模数据的计算成本昂贵。在计算机视觉和自然语言处理[1,2,13,22,24]领域,人们一直致力于解决机器遗忘的低效问题。例如,SISA方法[1]将训练数据随机分割成几个不相交的片,然后根据每个片训练子模型。然后,通过多数投票或平均投票对子模型进行聚合,得到最终的预测结果。当一些数据样本被要求遗忘时,只需要重新训练相应的子模型。但是,现有的方法不能直接应用于推荐任务。由于推荐系统依赖于用户和项目之间的协作信息,因此将数据随机划分为碎片可能会严重损害推荐性能。此外,现有的学习方法中的聚合部分通常为每个子模型分配一个静态权重。虽然最近的方法GraphEraser[13]使用了一种基于学习的方法来分配权重,但在预测不同的用户-项目交互时,权重不能自适应地改变。针对现有解决方案的上述问题,在本工作中,我们提出了一种新的高效的可擦推荐框架,即RecEraser,,在保持高推荐性能的同时实现高效的遗忘。RecEraser的一般思想是将训练集划分为多个碎片,并为每个碎片训练一个子模型。为了保持数据的协作信息,我们分别根据用户、项目和交互的相似性设计了三种数据划分策略。与传统的社区检测和聚类方法[15,23,34]不同,我们的数据划分策略是为了实现平衡划分,使学习效率不受不平衡碎片大小的影响。此外,考虑到推荐系统通常面临着不同的用户和项目,子模型对预测不同的用户-项目对应该有不同的贡献。为了进一步提高推荐性能,我们提出了一种基于注意力的自适应聚合方法。为了评估我们的方法,我们在三个真实世界的数据集上进行了广泛的实验。由于RecEraser的架构对于基本模型与模型无关,因此我们使用了三个具有代表性的推荐模型BPR [42]、WMF [11,31]和LightGCN [28]作为其基本模型。实验结果表明,它不仅可以实现有效的遗忘,而且在性能上优于SISA [1]和GraphEraser[13]等最先进的遗忘框架。进一步的消融研究也表明了我们提出的数据划分策略和自适应聚合方法的有效性。这项工作的主要贡献是:

(1)据我们所知,这是第一个解决机器遗忘问题的工作。提出了一种通用的可擦除推荐框架。

(2)设计了三种数据划分策略,将推荐数据分割成平衡的碎片,并提出了一种基于注意力的自适应聚合方法,以进一步提高了RecEraser的性能。

(3)我们在三个真实世界的数据集和三个具有代表性的推荐模型上进行了广泛的实验。结果表明,RecEraser不仅可以实现有效的遗忘,而且在推荐性能方面优于最先进的遗忘框架。

RELATED WORK

Item Recommendation

通过网飞挑战,早期的推荐方法[36,37]被设计出来,通过将用户和项目映射到矩阵分解等潜在因素空间来建模用户的显式反馈。后来,研究人员发现,用户主要通过隐性反馈与物品进行互动,比如在电子商务网站上的购买和在在线视频平台上观看视频。然后提出了一种从内隐反馈[9,12,30,31,42]中学习的大量推荐方法。具体地说,Hu等人[31]提出了一种基于非抽样的方法WMF,它假设所有未观察到的项目都是负样本。最近的一些研究也已经解决了非抽样学习的低效问题。例如,Chen等人[11]为推荐模型推导了一个灵活的非抽样损失,它实现了有效和高效的性能。在另一项研究中,Rendle等人[42]提出了一种成对学习方法BPR,这是一种基于抽样的方法,基于用户相对于项目对的相对偏好来优化模型。

由于深度学习的普及,有大量的文献利用不同的神经网络进行推荐系统。在[30]的研究中,He等人提出了一个神经协同滤波(NCF)框架,通过联合学习矩阵分解和前馈神经网络来处理隐式反馈数据。NCF框架已经被广泛扩展,以适应不同的推荐场景[27,45]。近年来,探索新提出的深度学习架构在推荐中的应用已成为一种趋势。如注意机制[7,47]、卷积神经网络[29,52]、递归神经网络[41]和图神经网络[6,19,46]等。具体来说,Wang等人[46]提出了NGCF,通过在用户-项目交互图上传播嵌入来利用高阶接近性。通过去除非线性激活函数和特征变换,将NGCF进一步扩展到LightGCN [28]。LightGCN比普通的GCN模式更有效,并在Top-

论文翻译-Recommendation Unlearning相关推荐

  1. 如何自动生成推荐歌单:ACM论文翻译与解读 | Translation and Interpretation of ACM Survey

    如何自动生成推荐歌单:ACM论文翻译与解读 | How to Automatically Generate Music Playlists: Translation and Interpretatio ...

  2. 阿里巴巴线上使用的深度学习兴趣网络 DIN (三) - 论文翻译

    总述:阿里巴巴拥有世界上数一数二的电子商务系统,每天的成交额高达数十亿,那么这样一个大规模的商务网站肯定要做好一件事情,那就是用户搜索的时候给用户最好的搜索结果,用户不搜索的时候结合用户的兴趣给用户最 ...

  3. 论文翻译:How to Retrain Recommender System A Sequential Meta-Learning Method

    论文翻译:How to Retrain Recommender System? A Sequential Meta-Learning Method 一.Abstract 实际的推荐系统需要周期性地进行 ...

  4. Spatial As Deep: Spatial CNN for Traffic Scene Understanding论文翻译

    Spatial As Deep: Spatial CNN for Traffic Scene Understanding论文翻译 Abstract摘要 Convolutional neural net ...

  5. 论文翻译_论文翻译的注意事项有什么?

    针对不同题材的文稿有不同的翻译标准,论文翻译是比较严谨的一种翻译类型,下面小编给大家分享论文翻译的注意事项有什么? 注意"从一而终" 所有的论文,在权威平台上发布的时候都必须译为英 ...

  6. 转:经典论文翻译导读之《Google File System》

    首页 所有文章 资讯 Web 架构 基础技术 书籍 教程 Java小组 工具资源 - 导航条 -首页所有文章资讯Web架构基础技术书籍教程Java小组工具资源 经典论文翻译导读之<Google ...

  7. 论文翻译_做论文翻译需要知道哪些翻译技巧?知行翻译:这3个技巧

    论文,在古代是指交谈辞章或交流思想.而现代常用来指进行各个学术领域的研究和描述学术研究成果的文章.论文不仅是探讨问题进行学术研究的一种手段,也是描述学术研究成果进行学术交流的一种工具.常见的种类包括学 ...

  8. php 谷歌翻译api_科研福音,论文翻译神器系列!

    参考文献很大程度上反映了一篇论文的水平.对于研究生来说,自己动手写论文前的第一步工作就是阅读大量高水平.前沿的文献,而这些论文大多是英文写就. 人工翻译一般比较耗时且需要扎实的语言功底,对于初学者来说 ...

  9. Arcface v1 论文翻译与解读

    神罗Noctis 2019-10-13 16:14:39  543  收藏 4 展开 论文地址:http://arxiv.org/pdf/1801.07698v1.pdf 最新版本v3的论文翻译:Ar ...

最新文章

  1. 【AI】【机器人】AI与机器人的42个终极问题与解答
  2. 第174天:面向对象——公有属性、私有属性和静态属性
  3. 初识slam 即时定位与地图构建
  4. C#自定义开关按钮控件--附带第一个私活项目截图
  5. win10+tensorflow CPU 部署CTPN环境
  6. wait和notify使用例子
  7. C. Orac and LCM(数论lcm, gcd)
  8. @Transcational特性
  9. rstudio 修改代码间距_第一章 R和RStudio
  10. 【推荐实践】推荐系统中模型训练及使用流程的标准化
  11. 图像语义分割(6)-RefineNet:用于高分辨率图像语义分割的带有恒等映射的多路精细网络
  12. 机器人弹古筝图片_除了百度,还有这些搜索引擎哦:深网搜索引擎「第二弹」...
  13. 《麻省理工公开课:线性代数》中文笔记来了!
  14. Python音频处理基础知识,右手就行
  15. 四、HTML标签:图片标签
  16. 简述dijkstra算法原理_理解最短路径——迪杰斯特拉(dijkstra)算法
  17. Python基础教程(第3版)读书笔记:第3章 使用字符串
  18. 朴素贝叶斯法 - 垃圾邮件分类
  19. Mac 如何使用外部存储设备,移动硬盘备份 iPhone 数据
  20. 联发科技获得IPValue Management的专利组合许可

热门文章

  1. 信息技术(IT)的国内发展历程
  2. MAC程序员常用服务和最新科技平台
  3. mac 系统 钥匙串 中看不到对应证书的私钥
  4. 2022年年初,全军出击。回顾项--持续梳理前端面试高频题目
  5. SWUST OJ 1053: 输出利用先序遍历创建的二叉树中的指定结点的度
  6. 分辨率高,清晰度高?
  7. 友链检测限制检测前100条数据
  8. android app私有路径的获取
  9. 日常训练 2017.04.08 凶♂残♂的猪猪???
  10. Java高级面试题!oracle转mysql