1 引言

知识图谱是一个包含很多技术内容的知识体系,总的来说,是处理关联的知识,核心是数据,但强调了数据之间的关联关系。简单来看,可以认为是数据库或知识库,和语义网有着千丝万缕的联系。知识图谱是由谷歌首先提出来的,用于优化它的搜索能力,之后,获得了蓬勃的发展,研究的人也越来越多。

知识图谱的出现,不是一蹴而就的,有一个缓慢演进的过程,包括现在,也还在发展中。知识图谱的发展,可以从多个方面进行阐述,比如开放链接数据的思想,知识表示,知识推理,知识存储等,伴随着信息技术特别是人工智能技术的发展,知识图谱不断融合新的技术,不断发展和完善。此处主要讲述知识图谱理论的形成过程。

2 信息机器Memex

1945年,一个美国科学家Vannevar Bush在《大西洋月刊》上发表了一篇文章《As We May Think》,提出一种信息机器的构想,就像下图中的样子。

在Bush博士的设想中,这种机器还可以与图书馆联网。通过某种机制,将图书馆收藏的胶卷,自动装载到本地机器上。因此,只通过这一个机器,就可以实现海量的信息检索。他将这种机器命名为Memex,也就是“memory extender”这两个单词词首的组合,意思是“记忆的延伸”。

文中描述了对这种机器的设想,“Wholly new forms of encyclopedias will appear, ready-made with a mesh of associative trails running through them, ready to be dropped into the memex and there amplified.”

这个设想的影响非常大,后来许多早期的计算机论文中都提到了这个机器。然后,文中关于信息切换的描述,直接启发了“超文本协议”(hypertext)的发明。现在,我们在互联网上不同的链接之间跳转,其源头都可以追溯到这篇文章。

3 以超链接为主的WEB

1989年3 月,蒂姆·伯纳·李爵士(Tim Berners-Lee)向CERN递交了一份立项建议书,建议采用超文本技术(Hypertext)把CERN内部的各个实验室连接起来,在系统建成后,将可能扩展到全世界。

在建议书中,有一段话以超文本为核心的web,比利用层级结构的方式,更容易让热接受和传播。

This is why a "web" of notes with links (like references) between them is far more useful than a fixed hierarchical system. When describing a complex system, many people resort to diagrams with circles and arrows. Circles and arrows leave one free to describe the interrelationships between things in a way that tables, for example, do not. The system we need is like a diagram of circles and arrows, where circles and arrows can stand for anything.

文中说明了超文本利用圆圈和箭头可以自由的描述任何事物,比使用层级结构的表格要灵活的多,特别是描述复杂系统,作用更加突出,这就是超文本的作用。这个思想也是现在比较流行的思维导图的核心思想,利用发散思维,建立联系。

4 以链接数据为核心的语义网

语义网的概念也是由万维网联盟的蒂姆在1998年提出,它的核心是通过给万维网上的文档 (如:HTML文档、XML文档)添加能够被计算机所理解的语义“元数据”(外语:Meta data),从而使整个互联网成为一个通用的信息交换媒介。

语义网不同于现在WWW,现有的WWW是面向文档而语义网则面向文档所表示的数据,而语义网更重视于计算机“理解与处理”,并且具有一定的判断、推理能力。

2006年蒂姆·伯纳斯-李在普林斯顿大学演讲和后期接受媒体采访时公开表示,他最初将这种智能网络命名为语义网或许不够贴切,也许更准确的名称应该是数据网(外语:Data Web)。

5 谷歌知识图谱,things, not strings

链接数据不断积累,数据量以几何量级增长,如何更好的使用这些数据,搜索引擎公司Google提出了知识图谱的概念。辛格博士曾经说过,The world is not made of strings , but is made of things.

知识图谱的提出,目的在于更好的利用开放链接数据,将搜索字符串变为搜索真实世界中的事物,将一个事物通过内部特征(属性)和外部联系(关系),立体的呈现在人们面前,将知识图谱看作一张以关联关系为主的巨大图谱,图谱中,点代表客观事物,边代表了事物的属性或关系。

6 结语

在知识图谱的演进过程中,还有很多思想和技术起到了非常大的作用,比如本体论,本来是哲学中的概念,被引入到知识图谱中,用来指导知识表示,使得知识图谱的知识表示更加规范,能够为计算机所理解,在知识图谱发展中起到了不可或缺的作用。

知识图谱学习与实践(1)——知识图谱的演化过程相关推荐

  1. 知识图谱学习笔记八(知识问答)

    知识问答 知识问答是一个拟人化的智能系统,接收使用自然语言表达的问题,理解用户的意图,获取相关的知识,通过推理计算形成相应的答案并反馈给用户. 知识问答的基本要素 1.问题,也就是问答系统的输入.(问 ...

  2. 知识图谱学习笔记四(知识抽取与挖掘)

    知识抽取任务以及相关竞赛    知识抽取基本定义 实现自动化构建大规模知识图谱的重要技术.目的在于从不同来源.不同结构的数据中进行知识提取并存储在知识图谱中.    知识抽取子任务 命名实体识别(如: ...

  3. 知识图谱学习与实践(7)——网页数据抽取(包装器的使用)

    互联网中蕴含着大量的数据资源,这些数据存在于html的代码之中,如何从浩瀚的代码中提取有效的数据,针对不同的情况,可以采用多种方法来实现网页数据的提取. 1 手工方法 网页呈现数据的方式,一般都是按照 ...

  4. 知识图谱学习与实践(4)——通过例句介绍Sparql的使用

    通过例句介绍Sparql的使用 1 简介 SPARQL的定义,是一个递归的定义,为SPARQL Protocal and RDF Query Language,是W3C制定的RDF知识图谱标准查询语言 ...

  5. d2rq java,知识图谱学习与实践(6)——从结构化数据进行知识抽取(D2RQ介绍)...

    1 概述 D2RQ,含义是把关系型数据库当作虚拟的RDF图数据库进行访问.D2RQ平台是一个将关系型数据库当作虚拟的.只读的RDF图数据库进行访问的系统.提供了基于RDF访问关系数据库的内容,而无需复 ...

  6. 知识图谱学习与实践(6)——从结构化数据进行知识抽取(D2RQ介绍)

    1 概述 D2RQ,含义是把关系型数据库当作虚拟的RDF图数据库进行访问.D2RQ平台是一个将关系型数据库当作虚拟的.只读的RDF图数据库进行访问的系统.提供了基于RDF访问关系数据库的内容,而无需复 ...

  7. 知识图谱学习笔记-风控知识图谱设计

    一.知识图谱搭建流程 问题定义->数据收集->数据预处理->设计知识图谱->存储知识图谱->应用知识图谱->评估系统 二.知识图谱设计原则 1)需要哪些实体.关系. ...

  8. 知识图谱学习笔记三(知识存储)

    1. 两种主要的图数据模型: RDF图.属性图 2.查询语言: RDF图:SPARQL               属性图:Cypher.Gremlin 3.知识图谱存储方法 a.基于关系型数据库的存 ...

  9. 产品经理知识体系学习与实践指南

    新产品开发管理:从流程到体系 0.3 产品经理:角色与知识体系 产品经理 对产品生命周期的各个阶段,产品的孕育.创意.概念.开发.上市负责,以及对产品线和产品组合负责:不仅对实体产品负责,还要对服务. ...

最新文章

  1. Elasticsearch压缩索引——lucene倒排索引本质是列存储+使用嵌套文档可以大幅度提高压缩率...
  2. 怎么对Java服务进行调优的?
  3. java什么时候需要同步_JAVA中线程在什么时候需要同步和互斥
  4. 错排问题(以航电OJ 2048 为例)
  5. 【BZOJ】1002: [FJOI2007]轮状病毒 递推+高精度
  6. 双系统linux清除勒索病毒,wannacry勒索病毒修复软件
  7. python之pdf分页
  8. 《菜菜的机器学习sklearn课堂,tomcat架构解析pdf
  9. html语言 图片大小,html如何设置图片大小
  10. 码市coding不能下载
  11. 游戏开发全免费下载资源网站
  12. 关于Smartphone的智能手机键盘输入法的疑惑
  13. 程序猿怎么利用技术挣钱?——python量化实践
  14. GR节点故障The member contains transactions not present in the group
  15. Java实现二阶魔方旋转
  16. LS1046A QSPI FLASH memory map setting
  17. python实用性函数分享_17.【Python学习分享文章】function(函数)1
  18. Veri3.SDF后仿真时序检查
  19. 计算机系统导论与计算机导论,计算机系统导论之学习心得.doc
  20. oracle sys dba 01031,sys用户连接数据库是报ORA-01031: insufficient privileges的处理

热门文章

  1. U盘为Linux加速,用u盘启动linux的步骤
  2. U盘0字节怎么解决?数据恢复这样做
  3. Intellij中vim插件常用指令
  4. 根据日期和随机数生成32位的16进制随机数
  5. 英国计算机专业硕士申请美国博士,美国计算机专业留学硕士申请|美国计算机专业留学博士申请-计算机专业留学...
  6. 密码学博士必须掌握的52个知识点(二):多核处理器和矢量处理器之间的不同
  7. python模拟实现链表_python实现链表
  8. 【数据库】7种图数据库简单比较
  9. 【C++】反向迭代器的实现
  10. mysql cluster 7.5安装,mysql-cluster 7.3.5安装部署