在最近的一篇博文中,TensorFlow宣布推出TensorFlow Privacy。这是一个开源库,它允许研究人员和开发人员构建具有强大隐私保护功能的机器学习模型。基于强大的数学确定性(mathematical guarantees),使用本库可以确保用户数据无法通过训练过程被记住。

机器学习在如今的在线产品和服务中非常普遍。谷歌认为,为了保护用户隐私,把强大的隐私保护功能嵌入TensorFlow是非常重要的。为什么那么重要呢?谷歌大脑(Google Brain)的产品经理Carey Radebaugh对此进行了解释:

现代机器学习正越来越多地用于创造令人惊叹的新技术和用户体验,其中很多需要让训练机器负责地从敏感数据(例如个人照片或电邮)中学习。理想情况下,受过训练的机器学习模型的参数应该编码一般模式,而不是关于特定训练示例的事实。

TensorFlow Privacy的引入符合谷歌去年发布的负责的AI实践承诺(Responsible AI Practices commitment),旨在“在这些[AI]系统中建立公平性、可解释性、隐私和安全性”。谷歌除了遵循负责的AI实践外,他们还希望让外部开发人员在其构建的应用程序和产品中应用同样的实践。

TensorFlow Privacy的技术实现建立在差异化隐私理论(differentail privacy theory)之上,该理论通过提供一个衡量隐私保障的框架,以确保模型不会学习或记住用户的详细信息。

为了证明TensorFlow Privacy的有效性,谷歌提供了一个训练两个模型的例子,其中一个模型具有基于TensorFlow Privacy库的差异化隐私功能,而另一个没有。这两个模型是在标准Penn Treebank训练数据集上训练的。这两个模型在对英语建模中都表现良好。如对于以下的财经新闻句子,二者都能够获得好分数。

There was little turnover and nothing to stimulate the market
South korea and japan continue to be profitable
Merchant banks were stronger across the board

但是,在某些领域,这两个模型的得分天差地别。例如,使用传统的训练方法,以下这三个句子的得分都很高,也就是“在标准训练过程中,有效地记住了内容”。相反,差异性隐私模型在这些句子上的得分很低,并被拒绝了。

Aer banknote berlitz calloway … ssangyong swapo wachter
The naczelnik stands too
My god and i know i am correct and innocent

在财经新闻的语境中,这三个句子似乎不常见。因此,这三个罕见的句子可以用来识别或揭示个人信息,因而使用敏感数据训练就被拒绝了。Radebaugh进行了额外的解释:

这两个模型的差异在于,有隐私保护的模型不能记住异常的罕见序列。我们可以利用我们先前在神经网络中测量无意识记忆的工作来量化这种影响。我们故意在训练数据中插入独特的、随机的罕见句子,并评估罕见句子对训练模型的影响。在这种情况下,单个随机罕见句子的插入就足够让无隐私保护模型完全记住它了。

TensorFlow Privacy库和示例可以在它们的GitHub存储库中找到。此外,TensorFlow技术白皮书已经更新,包含了这些新隐私机制的详细信息。

阅读英文原文:Introducing TensorFlow Privacy, a New Machine Learning Library for Protecting Sensitive Data

新机器学习库TensorFlow Privacy问世:旨在保护敏感数据相关推荐

  1. Gluon新机器学习库,学习库中的富二代丨又拖了后腿,9亿4G用户平均月流量2007M【软件网每日新闻播报│第10-23期】

    每一个企业级的人 都置顶了 中国软件网 中国软件网 为你带来最新鲜的行业干货   小编点评 教育信息化 专家们说:将高信息素养纳入教育目标,全面推动教育现代化 大人们说:将VR.AR技术运用到教育中去 ...

  2. 谷歌迈出量子计算开源第一步,推出首个量子机器学习库TensorFlow Quantum

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 乾明 十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI 刚刚,谷歌在量子计算 ...

  3. 谷歌发布TensorFlow Privacy​:大幅提升AI模型中的隐私保护

    https://www.cnbeta.com/articles/tech/824909.htm 基于机器学习框架TensorFlow的谷歌最新模块,可以让开发者只添加几行额外代码就能改善AI模型中的隐 ...

  4. 如何在机器学习的框架里实现隐私保护?

    编者按:数据时代,人们从技术中获取便利的同时,也面临着隐私泄露的风险.微软倡导负责任的人工智能,因此机器学习中的隐私保护问题至关重要.本文介绍了目前机器学习中隐私保护领域的最新研究进展,讨论了机密计算 ...

  5. 【机器学习】22个开源的机器学习库,帮助您选择一个适合您的管道工具。

    目录 介绍 概观 部分解决方案 特色工程 多功能工具 boruta-py tsfresh Trane FeatureHub 超参数优化器 Skopt Hyperopt simple(x) Ray.tu ...

  6. GitHub上25个最受欢迎的开源机器学习库

    作者 | Khoa Pham 译者 | Shawn Lee 编辑 | Jane 出品 | AI科技大本营 在过去的几年里,机器学习为各行各业开创了新纪元,诞生了许多成功的案例: Facebook 的面 ...

  7. 前 15 个 JavaScript 机器学习库

    机器学习领域新技术的迅猛发展帮助软件开发人员以前所未有的方式构建新的人工智能应用程序. 目前,大多数 AI 爱好者利用 Python 框架进行 AI 和机器学习开发. 但环顾四周,人们可能还会发现基于 ...

  8. 微软研究院:如何在机器学习的框架里实现隐私保护?

    编者按:数据时代,人们从技术中获取便利的同时,也面临着隐私泄露的风险.微软倡导负责任的人工智能,因此机器学习中的隐私保护问题至关重要.本文介绍了目前机器学习中隐私保护领域的最新研究进展,讨论了机密计算 ...

  9. 收藏 | 2021 十大机器学习库

    来源:大数据与机器学习文摘 本文约2600字,建议阅读9分钟 本文为你介绍2021年最为重要的10个 Python 机器学习相关的第三方库. Python 之于机器学习,可以说是最为锋利的武器:而机器 ...

最新文章

  1. 大数据是怎么知道你去过新发地的?
  2. class function,delphi静态函数的对象基址分析static
  3. CURL NDK 交叉编译
  4. 密码6-12位数字和字母组成
  5. shell 中常用到的基础命令
  6. powerdesigner 同步mysql 报错_Win7下PowerDesigner连接mysql,反向工程,导出差异脚本,或直接同步...
  7. 如何通过 Mac 使用 AirPods 收听?
  8. python里的正则表达式
  9. 《智慧书》格言大全(1-300)
  10. 模块式工业机器人柔性自动化生产线实训系统(五站)
  11. CentOS之命令方式安装向日葵与内网穿透
  12. (XWZ)的python学习笔记Ⅰ
  13. 从研发效能的视角谈“故障复盘”
  14. 数据库异常用户sa登录失败_Sa登录失败
  15. 温习古文之生于忧患,死于安乐
  16. 通过Python给头像加国旗,10多行代码搞定,就别@官方了
  17. Python自动切换wifi
  18. aspose.words 操作 word 文档-文字替换、删除首行、添加水印等方案
  19. 用USART来替代SPI,效果非常不错
  20. WIN7开机后网络连接启动慢的手动解决方法

热门文章

  1. 动态生成GridView时,加入DataKeyNames属性,回调时出错解决方法
  2. 封装DateTimePicker并使用绑定时遇到的问题
  3. C#编写的生成缩略图程序
  4. C#技术内幕 学习笔记
  5. linux新建文件权限问题
  6. ASP.NET重用代码技术 - 用户控件技术
  7. 函数指针--Nginx和Redis中两种回调函数写法
  8. GitHub/GitLab/Gitee中项目互拷贝后仍保留历史提交记录的方法
  9. FFmpeg中RTSP客户端拉流测试代码
  10. 吴恩达老师深度学习视频课笔记:深度学习的实用层面