阿里数据要做的是:把数据真正打通,深度挖掘数据的价值,为业务创新应用提供数据决策基础和依据。

下面具体介绍我们在大规模分布式知识图谱上的技术实践。


为什么需要知识图谱?

大规模知识图谱抽象也是一种图计算。基于大规模分布式知识图谱做了哪些工作?我们为什么要做这样一件事情?

阿里巴巴的生态非常丰富,而丰富的业态背后给我们数据工作者带来的困难就是,我们常常需要接入各种数据,并将他们有效地管理和整合起来,传统的方法,我们可能需要花几个月,投入几十个人做这样一件事情,对数据进行打标。

但是,假设我们已经知道数据和数据之间的一些关系,而且也知道数据表中哪些表被调用的次数最多。

那么,如果我只是对调用次数最多的表进行非常精确地打标,然后用基于知识图谱的方法,对剩下的90%表进行推理式的Label打标,就能极大节约了人力成本。

所以这就是我们为什么要用知识图谱去做数据接入这样的事情。那么,对于数据管理也是同样的道理。

假如只有1G的数据,你可以很快地回答出数据分布的情况和质量。而我们的现状时,我们的数据达到ZB级别的规模。因此对数据管理来说,挑战不容小觑。

同样地来看看数据应用方面的情况。我们基于数据应用,实际上也有一款产品叫做“数据地图”。

数据地图是干什么呢?其实就是当你进行一个查询,在这个产品里会自动帮你反馈出一个最相关的表。

延伸开来的是我们想要做得下一步工作:当你下一次进行查询后,能直接返回出相应的SQL,再产生出相应的表和相应的结果——这是我们想做的智能取数。

下面介绍一下知识图谱在数据管理和数据应用方面的落地进展。

我们开发了一些基于几十万张、上百万张ODPS表的知识图谱。

说一下我们的结果。在数据资产管理中,有一项重要的工作就是判断数据的归属。我们有上百万张的线上表,其中可能有几万张到几十万张的表能够比较清楚判断是属于哪个团队,可以在数据版图上打标。但是,还有上百万张没有打标的表,因为这个表属于异构的。如果在之前,通过一些人工的规则,它的归属判断准确率大概是55%,而通过我介绍的整个知识图谱的框架,准确率可以提升到88%。所以,对数据资产管理其实是有一个非常显著性的准确性上的提高。

接下来讲一下知识图谱在数据应用当中的一个技术框架,其实也是比较类似的。


数据管理技术架构

首先,数据层。因为是一个知识图谱的构建,所以上面要加个辞典层和语义层。

再上面就是基于推理层。在推理上,用的方法有大家比较熟悉的像随机游走和延伸等。那基于标注的,我们其实尝试了很多种方法,比方说张量分解等。

目前为止比较成功的是PRA(pathranking algo),这个在知识图谱上面还是比较成功的一件事情。什么是PRA,其实是把这些路径抽象出来,然后就是学习一下再推荐这个路径,但是它对于我刚才说的很多文本信息并没有有效的利用起来,比如对于这些表的描述,在最原始的PRA当中路径本身的位置是有考虑进去的,当然我对于这些描述,可能会知道也许这个路径更有效。所以,后来我们看了一下这个Trans系列,其实类似word2vecvs tfidf。确实在我们整个的刚才说的案例当中也是有比较大的提高。

刚才说的这些可能都是比较抽象的,我们可以看一个具体的例子,在数据地图当中,知识图谱到底是怎么工作的。

你打出一个查询,首先就是基本的分词与分析,其实大家可以看到,我们这个场景也是相当于搜索反馈一个结果,但是其实它和传统的搜索是不一样的:传统的搜索像Google、百度,其实它关心的指标是你准确的那个值是不是在TOP5,或者TOP10。

但是,我们这个场合下一定要反馈唯一的、准确的表。所以,接下来我们会有一些模板匹配,所以这里非常重要的一部分是人机交互这一块,把人机交互的结果,就是人要告诉你说,这个结果是否是他想到的,然后知识图谱整个刚才的框架有效的结合在一起,然后产生出你真正想找到那张表,然后整个的这个过程,其实这些是一些抽象出来的模板,这些模板可能是不够的。因为随着人的查询越来越多,模板也需要慢慢的扩展。

现在我们还是基于一些规则判断一些模板,未来我们也会尝试,让这个机器自动产生一些模板。

原文链接

浅析阿里数据技术架构(下)大规模分布式知识图谱相关推荐

  1. GTS来了!阿里微服务架构下的分布式事务解决方案

    阿里妹导读:分布式事务已经成为微服务落地最大的阻碍,也是非常具有挑战性的一个技术难题. 为此,今天我们邀请阿里高级技术专家于皋,和大家深入探讨微服务架构下,分布式事务的各种解决方案,并重点为大家解读阿 ...

  2. 技术动态 | eBay开源分布式知识图谱存储Beam,支持类SPARQL查询

    本文转载自公众号:AI前线. 作者 | Diego Ongaro,Simon Fell 译者 | 盖磊 编辑 | Natalie AI 前线导读:eBay 工程人员于 5 月 1 日在 官方技术博客 ...

  3. 阿里微服务架构下分布式事务Seata

    转载自  阿里微服务架构下分布式事务Seata Seata 是什么? Seata 是一款开源的分布式事务解决方案,致力于在微服务架构下提供高性能和简单易用的分布式事务服务.在 Seata 开源之前,S ...

  4. 【华为云技术分享】HDC.Cloud|华为云Stack大咖说:如何实现微服务架构下的分布式事务

    离华为开发者大会2020(Cloud)开幕仅剩一月左右,让开发者们和华为大咖近距离沟通的扫地僧早午餐会也已经开放预约.但是,有些小伙伴们已经等不及到二月了,别急,福利这不就来了吗!华为云Stack混合 ...

  5. Google大数据技术架构探秘

    Google是大数据时代的奠基者,其大数据技术架构一直是互联网公司争相学习和 研究的重点,也是行业大数据技术架构的标杆和示范. 1.谷歌的数据中心 谷歌已经建立了世界上最快.最强大.最高质量的数据中心 ...

  6. 云环境下大规模分布式计算数据感知的调度系统

    云环境下大规模分布式计算数据感知的调度系统 刘汪根1, 郑淮城1, 荣国平2 1 星环信息科技(上海)有限公司,上海 200233 2 南京大学软件学院,江苏 南京 210093 摘要:介绍了新的调度 ...

  7. 阿里无线技术架构演进

    阿里无线技术架构演进 手机淘宝作为阿里集团移动端的"航空母舰",近两年发展非常迅猛,用户量增长接近10倍.在2015双十一这天,我们的无线端成交占比高达68% .在高峰期,更有超过 ...

  8. China .NET Conf 2019-.NET技术架构下的混沌工程实践

    这个月的8号.9号,个人很荣幸参加了China.NET Conf 2019 , 中国.NET开发者峰会,同时分享了技术专题<.NET技术架构下的混沌工程实践>,给广大的.NET开发小伙伴介 ...

  9. 如何实现微服务架构下的分布式事务?

    摘要:微服务架构下,如何克服分布式事务难题? 什么是微服务?微服务有什么优势和困难? 什么是微服务架构? 简而言之,微服务架构的系统是一个分布式的系统,按业务进行划分为独立的服务单元,解决单体系统的不 ...

  10. Facebook大数据技术架构的演进路线

     Facebook一直是大数据技术最积极的应用者,因为它拥有的数据量极其巨大,一份资料显示2011年它拥有的压缩数据已经有25PB,未压缩数据150PB,每天产生的未压缩的新数据有400TB.在F ...

最新文章

  1. LINUX ModuleNotFoundError: No module named 'XX'
  2. jinfo 的相关使用 || 两个经典的参数: -Xms -Xmx
  3. ubuntu 下通过 sh 命令运行脚本产生如下错误:[: y: unexpected operator
  4. 968. Binary Tree Cameras 监控二叉树
  5. Apache Spark概述
  6. Docker学习总结(51)——为什么不建议把数据库部署在 Docker 容器内的7大原因?
  7. 【Java笔记】【Java核心技术卷1】chapter3 D4变量
  8. 最新版本elasticsearch本地搭建入门篇
  9. Mysql解决死锁的问题,防止阻塞
  10. python里none什么意思_Python 中None的用法
  11. 重走JAVA之路(四):ThreadLocal源码解析
  12. 当出现“在当前位置发现已经存在为RESUME.XLW的文件。您希望将该文件替换掉吗?” 解决方案...
  13. pdflib使用:pdf的分割与合并
  14. hiBurn下载-hitool烧写鸿蒙2.0系统到Hi3861V100-从哪里找到芯片列表文件更新芯片列表-HarmonyOS
  15. 詹克团:《区块链:人类劳动组织的未来形式》
  16. python-docx处理word文档功能详细说明
  17. 伦斯勒理工大学计算机专业好申请吗,只要达到标准,申请伦斯勒理工学院就不是一件困难的事情!...
  18. Endnote X9软件关联WPS解决方案
  19. 正则表达式生成器,测试器(附C#代码)
  20. css画三角形、梯形

热门文章

  1. crsctl stop crs 与 crsctl stop resources的区别
  2. python库build的那堆事儿之彩笔的划水历程
  3. telnet协商过程--转载自arthurscfd的《telnet协商》
  4. FabFilter Total Bundle 2021 for Mac(经典音频效果器合集)
  5. 智能翻译软件—人人译视界 for Mac
  6. 怎么才能获取NTFS for mac注册码呢?
  7. Blocking waiting for file lock on package cache
  8. iOS 解决报错 dyld: Library not loaded: @rpath/xxx.framework Reason: image not found
  9. EasyRecovery用法进阶--高阶设置使用技巧
  10. 无法处理文件 MainForm.resx,因为它位于 Internet 或受限区域中,或者文件上具有 Web 标记。要想处理这些文件,请删除 Web 标记...