知识图谱学习与实践(1)——知识图谱的演化过程
1 引言
知识图谱是一个包含很多技术内容的知识体系,总的来说,是处理关联的知识,核心是数据,但强调了数据之间的关联关系。简单来看,可以认为是数据库或知识库,和语义网有着千丝万缕的联系。知识图谱是由谷歌首先提出来的,用于优化它的搜索能力,之后,获得了蓬勃的发展,研究的人也越来越多。
知识图谱的出现,不是一蹴而就的,有一个缓慢演进的过程,包括现在,也还在发展中。知识图谱的发展,可以从多个方面进行阐述,比如开放链接数据的思想,知识表示,知识推理,知识存储等,伴随着信息技术特别是人工智能技术的发展,知识图谱不断融合新的技术,不断发展和完善。此处主要讲述知识图谱理论的形成过程。
2 信息机器Memex
1945年,一个美国科学家Vannevar Bush在《大西洋月刊》上发表了一篇文章《As We May Think》,提出一种信息机器的构想,就像下图中的样子。
在Bush博士的设想中,这种机器还可以与图书馆联网。通过某种机制,将图书馆收藏的胶卷,自动装载到本地机器上。因此,只通过这一个机器,就可以实现海量的信息检索。他将这种机器命名为Memex,也就是“memory extender”这两个单词词首的组合,意思是“记忆的延伸”。
文中描述了对这种机器的设想,“Wholly new forms of encyclopedias will appear, ready-made with a mesh of associative trails running through them, ready to be dropped into the memex and there amplified.”
这个设想的影响非常大,后来许多早期的计算机论文中都提到了这个机器。然后,文中关于信息切换的描述,直接启发了“超文本协议”(hypertext)的发明。现在,我们在互联网上不同的链接之间跳转,其源头都可以追溯到这篇文章。
3 以超链接为主的WEB
1989年3 月,蒂姆·伯纳·李爵士(Tim Berners-Lee)向CERN递交了一份立项建议书,建议采用超文本技术(Hypertext)把CERN内部的各个实验室连接起来,在系统建成后,将可能扩展到全世界。
在建议书中,有一段话以超文本为核心的web,比利用层级结构的方式,更容易让热接受和传播。
This is why a "web" of notes with links (like references) between them is far more useful than a fixed hierarchical system. When describing a complex system, many people resort to diagrams with circles and arrows. Circles and arrows leave one free to describe the interrelationships between things in a way that tables, for example, do not. The system we need is like a diagram of circles and arrows, where circles and arrows can stand for anything.
文中说明了超文本利用圆圈和箭头可以自由的描述任何事物,比使用层级结构的表格要灵活的多,特别是描述复杂系统,作用更加突出,这就是超文本的作用。这个思想也是现在比较流行的思维导图的核心思想,利用发散思维,建立联系。
4 以链接数据为核心的语义网
语义网的概念也是由万维网联盟的蒂姆在1998年提出,它的核心是通过给万维网上的文档 (如:HTML文档、XML文档)添加能够被计算机所理解的语义“元数据”(外语:Meta data),从而使整个互联网成为一个通用的信息交换媒介。
语义网不同于现在WWW,现有的WWW是面向文档而语义网则面向文档所表示的数据,而语义网更重视于计算机“理解与处理”,并且具有一定的判断、推理能力。
2006年蒂姆·伯纳斯-李在普林斯顿大学演讲和后期接受媒体采访时公开表示,他最初将这种智能网络命名为语义网或许不够贴切,也许更准确的名称应该是数据网(外语:Data Web)。
5 谷歌知识图谱,things, not strings
链接数据不断积累,数据量以几何量级增长,如何更好的使用这些数据,搜索引擎公司Google提出了知识图谱的概念。辛格博士曾经说过,The world is not made of strings , but is made of things.
知识图谱的提出,目的在于更好的利用开放链接数据,将搜索字符串变为搜索真实世界中的事物,将一个事物通过内部特征(属性)和外部联系(关系),立体的呈现在人们面前,将知识图谱看作一张以关联关系为主的巨大图谱,图谱中,点代表客观事物,边代表了事物的属性或关系。
6 结语
在知识图谱的演进过程中,还有很多思想和技术起到了非常大的作用,比如本体论,本来是哲学中的概念,被引入到知识图谱中,用来指导知识表示,使得知识图谱的知识表示更加规范,能够为计算机所理解,在知识图谱发展中起到了不可或缺的作用。
知识图谱学习与实践(1)——知识图谱的演化过程相关推荐
- 知识图谱学习笔记八(知识问答)
知识问答 知识问答是一个拟人化的智能系统,接收使用自然语言表达的问题,理解用户的意图,获取相关的知识,通过推理计算形成相应的答案并反馈给用户. 知识问答的基本要素 1.问题,也就是问答系统的输入.(问 ...
- 知识图谱学习笔记四(知识抽取与挖掘)
知识抽取任务以及相关竞赛 知识抽取基本定义 实现自动化构建大规模知识图谱的重要技术.目的在于从不同来源.不同结构的数据中进行知识提取并存储在知识图谱中. 知识抽取子任务 命名实体识别(如: ...
- 知识图谱学习与实践(7)——网页数据抽取(包装器的使用)
互联网中蕴含着大量的数据资源,这些数据存在于html的代码之中,如何从浩瀚的代码中提取有效的数据,针对不同的情况,可以采用多种方法来实现网页数据的提取. 1 手工方法 网页呈现数据的方式,一般都是按照 ...
- 知识图谱学习与实践(4)——通过例句介绍Sparql的使用
通过例句介绍Sparql的使用 1 简介 SPARQL的定义,是一个递归的定义,为SPARQL Protocal and RDF Query Language,是W3C制定的RDF知识图谱标准查询语言 ...
- d2rq java,知识图谱学习与实践(6)——从结构化数据进行知识抽取(D2RQ介绍)...
1 概述 D2RQ,含义是把关系型数据库当作虚拟的RDF图数据库进行访问.D2RQ平台是一个将关系型数据库当作虚拟的.只读的RDF图数据库进行访问的系统.提供了基于RDF访问关系数据库的内容,而无需复 ...
- 知识图谱学习与实践(6)——从结构化数据进行知识抽取(D2RQ介绍)
1 概述 D2RQ,含义是把关系型数据库当作虚拟的RDF图数据库进行访问.D2RQ平台是一个将关系型数据库当作虚拟的.只读的RDF图数据库进行访问的系统.提供了基于RDF访问关系数据库的内容,而无需复 ...
- 知识图谱学习笔记-风控知识图谱设计
一.知识图谱搭建流程 问题定义->数据收集->数据预处理->设计知识图谱->存储知识图谱->应用知识图谱->评估系统 二.知识图谱设计原则 1)需要哪些实体.关系. ...
- 知识图谱学习笔记三(知识存储)
1. 两种主要的图数据模型: RDF图.属性图 2.查询语言: RDF图:SPARQL 属性图:Cypher.Gremlin 3.知识图谱存储方法 a.基于关系型数据库的存 ...
- 产品经理知识体系学习与实践指南
新产品开发管理:从流程到体系 0.3 产品经理:角色与知识体系 产品经理 对产品生命周期的各个阶段,产品的孕育.创意.概念.开发.上市负责,以及对产品线和产品组合负责:不仅对实体产品负责,还要对服务. ...
最新文章
- Elasticsearch压缩索引——lucene倒排索引本质是列存储+使用嵌套文档可以大幅度提高压缩率...
- 怎么对Java服务进行调优的?
- java什么时候需要同步_JAVA中线程在什么时候需要同步和互斥
- 错排问题(以航电OJ 2048 为例)
- 【BZOJ】1002: [FJOI2007]轮状病毒 递推+高精度
- 双系统linux清除勒索病毒,wannacry勒索病毒修复软件
- python之pdf分页
- 《菜菜的机器学习sklearn课堂,tomcat架构解析pdf
- html语言 图片大小,html如何设置图片大小
- 码市coding不能下载
- 游戏开发全免费下载资源网站
- 关于Smartphone的智能手机键盘输入法的疑惑
- 程序猿怎么利用技术挣钱?——python量化实践
- GR节点故障The member contains transactions not present in the group
- Java实现二阶魔方旋转
- LS1046A QSPI FLASH memory map setting
- python实用性函数分享_17.【Python学习分享文章】function(函数)1
- Veri3.SDF后仿真时序检查
- 计算机系统导论与计算机导论,计算机系统导论之学习心得.doc
- oracle sys dba 01031,sys用户连接数据库是报ORA-01031: insufficient privileges的处理
热门文章
- U盘为Linux加速,用u盘启动linux的步骤
- U盘0字节怎么解决?数据恢复这样做
- Intellij中vim插件常用指令
- 根据日期和随机数生成32位的16进制随机数
- 英国计算机专业硕士申请美国博士,美国计算机专业留学硕士申请|美国计算机专业留学博士申请-计算机专业留学...
- 密码学博士必须掌握的52个知识点(二):多核处理器和矢量处理器之间的不同
- python模拟实现链表_python实现链表
- 【数据库】7种图数据库简单比较
- 【C++】反向迭代器的实现
- mysql cluster 7.5安装,mysql-cluster 7.3.5安装部署