数据孤岛,这个过去一直横亘在业界的一大难题,终于有了能规模化落地的解决方案。

随着数字经济的不断发展,释放数据要素价值被摆在了更重要的位置。此前,由于数据隐私和数据安全的要求,各行业、企业间的数据无法有效融合,但现在,大数据与AI等技术的快速演进,从技术上让数据可实现“可用不可见”,数据流通正在变得可行。与此同时,在国家的相关政策指导下,更加完善可靠的数据监管机制正在建立,安全完善的数字新业态正在推进。

新技术催生新的数据生态,如何利用新技术来推动数据要素价值的发现是当前数字化领域产学研各界的重要议题。作为一个庞大的大数据拥有方,腾讯没有理由不提出数据安全和流通的技术方案。

“相知不相识”,隐私计算为数据共享保驾护航

腾讯的数据和算力规模在不断扩增。比如,腾讯会议完成了3亿场会议,腾讯日活的微信用户有近10亿,支撑腾讯所有业务的IDC服务器数量高达100万台。腾讯大数据平台日接入数据量超55万亿条,如果不做压缩,有近8-9PB数量级规模数据,而日实时计算量超65万亿级规模,有500万核算力在提供计算支撑,日任务分析数达到1500万个。

这意味着,腾讯大数据处理平台也需要相应的技术演进能力。2019年,腾讯大数据开始规划第四代计算平台,直到2020年4月18日,终于推出涵盖批流融合、数据湖、联邦学习等新型技术,围绕安全、智能、统一理念的“腾讯大数据-天工”数智融合计算平台。

具体而言,天工平台实现了保护数据隐私,并提供联合数据分析、联合数据建模等能力,实现数据的互融互通,释放数据价值。在智能化方向,作为腾讯大数据平台的大脑,天工将基于平台本身的日志、事件、指标特征等数据,通过机器学习算法,实现对平台运营的智能支撑,达到平台的自动驾驶。此外,天工聚焦统一平台的研究,包括大数据和人工智能的统一,数据处理和数据挖掘统一,并提供一站式数据处理交互体验。

在数据隐私和安全保护上,备受关注的是,腾讯重磅发布了基于隐私计算技术的AngelPowerFL安全联合计算平台。

隐私计算技术的基本原理是,在保证数据不外泄的前提下,进行数据的安全分析及计算的一种新技术,强调流通过程中数据的“可用不可见”、“相知不相识”。目前业界的主流技术方案,包括多方计算、联邦学习、可信计算三大技术流派。

在技术能力方面,腾讯Angel PowerFL安全联合计算平台拥有全栈的联邦机器学习和深度学习功能,支持多方联邦逻辑回归、XGBoost、PCA、用户自定义神经网络模型,支持多方联邦模型在线serving和模型管理,支持联合数据分析。

Angel PowerFL平台提供多种隐私保护机制,包括同态加密、秘密分享、差分隐私、可信执行环境(如SGX)等,通过多种隐私保护机制的融合形成一个通用型隐私计算平台,在不同的应用场景里给用户提供选择不同的安全保护级别。

在跨机构的隐私计算场景里,跨公网通信是隐私计算系统的瓶颈。为解决通信问题,AngelPowerFL平台采用消息队列作为通信管道,例如Pulsar MQ。MQ模块可以有良好设计的拥塞控制和消息持久化功能,可以进一步增强系统稳定性。在MQ的基础上采用了高效的消息压缩算法来减少通信开销,提高多方交互效率。

为方便产品迭代和应用部署,Angel PowerFL平台采用了计算层和服务层分离的设计,支持多种方式部署,支持灵活资源扩缩容。所有的服务组件均以容器的形式部署在K8S集群上,最大程度简化部署和降低运维成本,可以方便地实现服务的容错与扩缩容。基于K8S的部署方案,还保证了联邦深度学习的应用,方便对接TensorFlow和PyTorch等常用深度学习框架,以及在K8S集群上进行分布式深度学习模型训练和推理。

Angel PowerFL平台以底层技术的方式与腾讯云神盾联邦学习产品结合,面向企业联合数据建模的需求场景,推出了神盾-联邦机器学习平台产品。产品针对机器学习算法进行订制化的隐私保护改造,保证数据不出本地即可完成模型训练。Angel PowerFL作为腾讯云数据安全网络(DSN)底层隐私计算引擎,为金融、政务等多个应用场景提供联邦学习平台,助力释放数据融合价值。

值得一提的是,腾讯在未来将会开源Angel PowerFL平台。对普通开发者而言,它的上手门槛如何?腾讯数据平台部AI平台部总监陶阳宇告诉CSDN,AngelPowerFL下一步的重点就是改进易用性,包括全栈功能更易用,提供微服务化,以及基于Docker的云原生,支持一键化部署,易于开发者将平台能力集成到大数据业务上。他们希望开发者使用联合计算平台就像用Excel一样方便。

采用自研隐私计算技术,天工平台从机器学习到大数据分析为各个场景提供全方位保护,去中心化的架构则能避免单点隐私泄露风险。目前,天工可以支持千亿级规模的海量数据训练,性能参数领先业界5倍,在此基础上,提供3072bit业界最高强度加密和TEE硬件双保险,最大限度确保数据安全。

各行业数据流通需求推动隐私计算规模化落地

目前,腾讯的隐私计算技术已在医疗、广告、金融、风控、政务等领域得到了快速应用。

以某大型金融服务机构基于腾讯Angel PowerFL平台构建的联邦金融风控系统为例,它成功实现了原始数据特征不传输的情况下,多方数据源联合构建出更准确的信贷风控模型,并已在大规模商用场景中落地。

通过跨机构A和B两方协作,其中A方拥有用于建模的部分特征,B方也拥有用于建模的部分特征以及标签信息,在数据不传输出本地的情况下,A方和B方进行联合建模。AngelPowerFL系统首先对A和B双方样本进行安全的样本对齐(PSI),选取对齐的样本用于模型训练,接着对A和B拥有的特征进行联合特征选择和特征工程,然后通过安全联邦逻辑回归算法协议训练出风控模型,用于后续的预测打分,并与金融业务系统对接。Angel PowerFL联邦算法协议采用了去中心的架构设计,不依赖第三方中心节点,进一步增强了安全性和实用性。

相比于传统的单侧建模,腾讯Angel PowerFL联邦风控在AUC和KS指标上分别有5%和16%的提升,现在提升了金融风控效果。另外,Angel PowerFL系统基于腾讯Angel分布式机器学习平台开发,支持海量数据的高性能联邦模型训练,十万数据规模只需十分钟左右完成模型训练,同时支持在线的模型推理服务,用于金融业务实时需求场景。

而在广告行业,某广告平台拥有用户的画像数据和点击行为数据,与之合作的广告主则拥有用户的实际购买等转化数据。通过Angel PowerFL平台,广告平台和广告主联合进行推荐模型的训练,实现更精准的广告定向投放。

在广告平台和广告主两方协作构建个性化推荐模型过程中,广告平台方拥有用于建模的数据,广告主方拥有用于建模的数据和标签信息。双方基于对齐后的样本数据,通过Angel PowerFL系统协作训练推荐模型(例如,XGBoost模型),接入推荐业务系统。广告推荐模型通常需要大规模的数据集,Angel PowerFL在一个小时左右完成千万级数据的XGBoost模型训练,十分钟左右完成千万级数据的预测,模型的准确率(Accuracy)在95%以上。联邦广告推荐系统相对单方独立建模系统效果提升15%。

此外,医院之间的数据无法共享,但通过隐私计算平台,就可以把多家医院的用户信息汇总到一起做整体的模型训练,在保护患者个人隐私的同时,又能进行总体病例分析。如此,就能把三甲医院医生的治疗经验“复制”到社区医院等机构。政府行业也需要隐私计算技术来降低跨机构间数据融合的阻力,特别像京津冀、长三角地区最近就在考虑跨平台、跨行业进行数据共享。

未来,腾讯还要打造一套基于基础设施平台的生态,而这又是一个庞大的系统工程。因为推动和建立完善的数据流通体系,只有单纯技术平台远远不够,数据流通的生态需要各方共建,数据生产要素才能真正进行市场化配置,为未来的数据经济打下坚实的基础。

数据流通实现“可用不可见”?腾讯巧夺“天工”相关推荐

  1. 冲量在线要做数据流通基础设施服务商

    百度解决的是人和信息的连接,腾讯解决的是人和人的连接,阿里则实现人和商品的连接. "冲量在线要解决数据和数据之间的连接,数据流通是一个刚需,需要基础设施服务商.冲量在线就是要做数据流通基础设 ...

  2. 破解数据流通痛点,华控清交的隐私计算之道

    从无序中寻找踪迹,从眼前事探索未来. 正值 IT 黄金十年新开端, CSDN 欲以中立技术社区专业.客观的角度,深度探讨中国前沿 IT 技术演进,现在推出年度重磅企划栏目--「拟合」,通过对话企业高管 ...

  3. 数据流通与交易国家实验室成立 由上海牵头组建瞄准行业重大需求

    在大数据时代,数据资源如何进行高效有序的流动.交易.治理.利用,已经成为一种新的关键技术.着眼于此,我国成立了首个聚焦数据流动的国家级实验室---大数据流通与交易国家工程实验室,并于今天在北京正式揭牌 ...

  4. 双项通过|百度点石通过信通院「可信数据流通平台」、「联邦学习」双项测评

    随着时代的发展,信息技术逐渐与生产生活交汇融合,数据安全已成为事关国家安全与经济社会发展的重大问题.2021年12月20日, 由中国信息通信研究院(以下简称"信通院").中国通信标 ...

  5. 【产业互联网周报】顺丰科技与圣辉征信达成数据流通合作;微软考虑模仿微信,建超级App;中国移动启动算力网络科学装置;...

     关注ITValue,看企业级最新鲜.最价值报道! 中国信通院:2021年中国数字经济规模位居世界第二,达7.1万亿美元:中物联:11月份全球制造业PMI为48.7%:中信证券:预计2023年钠离子产 ...

  6. 京东万象:通过以太坊联盟链解决数据流通的信任难题

    在互联网刚刚兴起的时候,大多数人认为它只是昙花一现. 美国MIT专家那时曾预测,大多数人很快都会使用网络浏览新闻而不是报纸时,主流媒体还对他进行了一番冷嘲热讽.如今20多年过去了,我们将会看到区块链技 ...

  7. UCloud“安全屋”数据流通平台:隐私计算市场的“隐形冠军”

    点击蓝字  关注云报 <中华人民共和国数据安全法>.<关键信息基础设施安全保护条例>都将于2021年9月1日起开始施行,<中华人民共和国个人信息保护法>也在最近正式 ...

  8. 冲量在线受邀参加可信执行环境技术沙龙:持续深耕数据流通,构建数据生态

    在大数据和互联网技术迅速发展的今天,隐私的重要性不言而喻,每次有大公司的客户隐私泄露的情况出现,都会在网络中激起千层浪.据<中国网民权益保护调查报告2020>调查显示,82.3%的网民亲身 ...

  9. 中国信息通信研究院王卓:基于安全多方计算的数据流通产品标准

    首先先讲一下背景,我们都在说数据价值的释放,但是现在数据价值释放是有瓶颈的,在进行共享和挖掘的时候,一定会涉及到数据在管理方和使用方之间的转移,这样的转移一定会带来问题,它带来的问题主要涉及到数据存在 ...

最新文章

  1. Clubhouse 本土化之后干得过“顶流”抖音快手吗? | 极客视频
  2. angular学习笔记(十三)
  3. Deverpress 中国代理商使用 官方地址
  4. 技术人员为什么应该参加社区活动?
  5. 删除vue打包大小限制_如何优化 Vue 祖传代码
  6. 天津理工上机c语言报告5,天津理工大学c语言上机报告7.doc
  7. [Swift]LeetCode39. 组合总和 | Combination Sum
  8. java经典设计模式4,JAVA设计模式(4) 之装饰设计模式
  9. android 动画总结笔记 一
  10. python 程序员待遇_python程序员待遇如何
  11. file api java_File的API和常用方法详解_动力节点Java学院整理
  12. 关于纹理勾选sRGB的疑惑
  13. python爬虫之SSL、加密、破解有道词典加密算法并编写有道词典实时翻译
  14. 基于BLE + LoRa人员定位技术下的室内定位-Lora人员定位-新导智能
  15. 英雄联盟7月23日维修服务器,LOL7月23日更新维护结束时间 7月23日什么时候可以上线 LOL7月23日更新维护内容_蚕豆网新闻...
  16. mysql cursor使用变量_mysql cursor游标的使用,实例
  17. 数据库系统之幻影读现象项目练习
  18. MySQL数据库安装
  19. 智能床、智能床垫、智能睡眠监测器的调研分析
  20. HDU操作系统课程设计实验三

热门文章

  1. 活久见!如何看待北京理工大学某硕士生被指几乎一字不差地抄袭论文?
  2. 黄铁军、沈向洋、王海峰入选,中国工程院21年院士增选有效候选人名单公布...
  3. 重磅来袭!谷歌八年高级工程师亲授面试经验!!!
  4. SAP中供应商确认功能的应用分析
  5. SAP QM QA08批量维护QMAT数据
  6. AI赋能,让无人系统更智能
  7. 深度学习未来发展的三种学习范式:混合学习,成分学习和简化学习
  8. 「模型解读」从2D卷积到3D卷积,都有什么不一样
  9. 商汤科技不等于人脸识别!它正在赋予AI更强的“存在感”
  10. 看AI如何改变医疗影像学