知识图谱简介(一)——相关概念
知识图谱是Google在2012年5月17日提出的,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。当前的人工智能技术其实可以简单地划分为感知智能(主要是图像、视频、语音、文字等识别)和认知智能(涉及知识推理、因果分析等),知识图谱技术就是认知智能领域中的主要技术,是人工智能技术的组成部分,其强大的语义处理和互联组织能力,为智能化信息应用提供了基础。
一个知识图谱旨在描述现实世界中存在的实体以及实体之间的关系。随着人工智能技术的发展和应用,知识图谱作为关键技术之一,已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。
从使用范围来说,知识图谱分为通用知识图谱和领域知识图谱,通用知识图谱强调的是广度,数据多来自于互联网,而领域知识图谱应用于垂直领域,成为了基础数据服务。
知识图谱的定义
知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。现在的知识图谱已被用来泛指各种大规模的知识库。
![](/assets/blank.gif)
如上图所示,知识图谱中包含三种节点,其基本形式为(实体1-关系-实体2)、(实体-属性-属性值)。
实体:指的是有可区别性且独立存在的事物。如某个国家:中国、英国等;某个城市:北京、伦敦等。
语义类:具有某种特性的实体构成的集合,如国家、城市、民族等。
属性值:实体指向的属性的值。例如中国(实体)面积(属性)960万平方公里(属性值)。
关系:在知识图谱上,关系是把kk个图节点(实体、语义类、属性值)映射到布尔值的函数。
基于上述的语义图概念,我们可以构建一个国家的知识图谱作为例子,如下:
![](/assets/blank.gif)
这个知识图谱显示中国、美国和其首都的关系,还有其属性值。
知识图谱架构
知识图谱架构包括自身逻辑结构以及构建知识图谱所采用的技术架构。
知识图谱的逻辑结构:知识图谱在逻辑上可分为模式层与数据层两个层次。数据层主要是由一系列的事实组成的,通常使用三元组来表达这些事实,因而可以选择图数据库来作为存储介质,存储这些三元组。常用的图数据库有Neo4j、twitter的FlockDB、sones的GraphDB等。模式层则构建在数据层之上,是知识图谱的核心,通常采用本体库来管理知识图谱的模式层。通过本体库形成的知识库不仅层次结构较强,并且冗余较小。
本体库:本体是指一种“形式化的,对于共享概念体系的明确而又详细的说明”,换言之即对于特定领域之中某套概念及其相互之间关系的形式化表达。
常见的本体构成要素包括:实体、语义类、属性、关系等。例如NetworkConnection的概念,其中包含NetProvider、NetSpeed实体,还有NetProvider和NetSpeed之间的关系概念,这些实体的属性概念。
![](http://www.talkwithtrend.com/home/attachment/201709/30/938893_150675663392944.jpg)
上图中虚线框中的部分为知识图谱的构建过程,也包含知识图谱的更新过程。这一过程包括:信息抽取、知识表示、知识融合、知识推理四个过程。首先从最原始的数据(包括结构化、半结构化、非结构化数据)出发,采用一系列自动化或半自动化的技术手段,从原始数据中提取出实体、关系、属性等知识要素,通过一定的手段对知识要素进行表示,便于进一步处理,然后通过知识融合消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量知识库,并将其存入知识库的数据层和模式层。最后利用知识推理在已有知识库的基础上进一步挖掘隐含的知识,从而丰富扩展知识库。
知识图谱的构建方式主要有两种,自顶向下(top-down)与自底向上(bottom-up)两种构建方式。
自顶向下:指的是先定义好本体与数据模式,再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库。FreeBase项目就是采用这种方式。
自底向上:指的是从一些开放链接的数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。大多数知识图谱都采用自底向上的方式进行构建,其中最典型的就是Google的Knowledge Vault和微软的Satori知识库。这也符合互联网数据内容知识产生的特点。
业界代表性知识图谱
知识图谱库名称 |
机构 |
特点、构建手段 |
应用产品 |
知识图谱 | 组织 | 特点 | 应用 |
FreeBase |
MetaWeb |
•实体、语义类、属性、关系 •自动+人工,部分数据从维基百科等数据源抽取,另一部分数据来自人工协同编辑 •https://developers.google.com/freebase/ |
•Google Search Engine •Google Now |
Knowledge Vault |
|
•实体、语义类、属性、关系 •超大规模数据库,源自维基百科、FreeBase、《世界各国纪实年鉴》 •https://research.google.com/pubs/pub45634 |
•Google Search Engine •Google Now |
DBPedia |
莱比锡大学、柏林自由大学、OpenLink Software |
•实体、语义类、属性、关系 •从维基百科抽取 |
DBPedia |
维基数据 |
维基媒体基金会 |
•实体、语义类、属性、关系,与维基百科紧密结合 •人工(协同编辑) |
WikiPedia |
Facebook Social Graph |
|
•Facebook社交网络数据 |
Social Graph Search |
百度知识图谱 |
百度 |
•搜索结构化数据 |
百度搜索 |
搜狗知立方 |
搜狗 |
•搜索结构化数据 |
搜狗搜索 |
ImageNet |
斯坦福大学 |
•搜索引擎 •亚马逊AMT |
计算机视觉相关应用 |
知识图谱相关产品CN-DBpedia
CN-DBpedia是由复旦大学知识工场实验室研发并维护的大规模通用领域结构化百科。CN-DBpedia主要从中文百科类网站(如百度百科、互动百科、中文维基百科等)的纯文本页面中提取信息,经过滤、融合、推断等操作后,最终形成高质量的结构化数据,供机器和人使用。
CN-DBpedia的入口:http://kw.fudan.edu.cn/cndbpedia/intro/,在这里我们尝试使用它的部分功能作为示例。
搜索
http://kw.fudan.edu.cn/cndbpedia/search/
通过上示地址进入CN-DBpedia搜索页面,搜索“周杰伦”,可以获得“周杰伦”的实体和实体关系、属性等。点击curiosity可以得到动态的可视化效果。
参考
[1] https://blog.csdn.net/Leohfan/article/details/82630573
[2] Bo Xu, Yong Xu, Jiaqing Liang, Chenhao Xie, Bin Liang, Wanyun Cui, and Yanghua Xiao. CN-DBpedia: A Never-Ending Chinese Knowledge Extraction System. In International Conference on Industrial, Engineering and Other Applications of Applied Intelligent Systems, pp. 428-438. Springer, Cham, 2017.
知识图谱简介(一)——相关概念相关推荐
- 【采用】知识图谱简介及风控应用场景
通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络.知识图谱提供了从"关系"的角度去分析问题的能力. 1 ...
- 第一章(1.1)——知识图谱简介
1.1 什么是知识图谱 知识图谱最开始是Google为了优化搜索引擎提出来的,推出之后引起了业界轰动,随后其他搜索公司也纷纷推出了他们的知识图谱 1.1.1 定义 知识图谱是一种基于图的数据结构,由节 ...
- 知识图谱发展历程简介
目录 1.万维网简介 2.语义网简介 3.知识图谱简介 4. 参考文献 1.万维网简介 1990年,Tim Berners-Lee在欧洲粒子物理实验室(CREN)实现了万维网(WWW)的原型系统. ...
- 知识图谱实践篇(一):数据准备和本体建模
对知识图谱有兴趣的读者可以关注我的知乎专栏,主要介绍知识图谱的相关概念.技术,也包含一些具体实践. 通过前面几篇文章的介绍,读者应该对知识图谱,其相关概念,以及语义网技术栈中的RDF,RDFS/OWL ...
- 人大赵鑫:基于图神经网络,建模知识图谱
报告 | 赵 鑫 撰文 | 熊宇轩 我这里主要给大家介绍一下利用图神经网络能做一些什么事情,这里面主要关注知识图谱的建模与应用. 在本次报告中,我们将从三个方面介绍基于图神经网络的知识建模与应用: ...
- 使用neo4j_知识图谱Task00:Neo4j安装配置
知识图谱开源内容: https://github.com/datawhalechina/team-learning-nlp/tree/master/KnowledgeGraph_Basic 19 学习 ...
- 知识图谱组队学习Task01——知识图谱介绍
文章目录 一.知识图谱简介 二.Neo4J 1.Neo4J的安装方法 2.Neo4J的基本操作 3.通过 Python 操作 Neo4j (1)neo4j模块:执行CQL ( cypher ) 语句 ...
- 《知识图谱》赵军 学习笔记
知识图谱读书笔记 文章目录 知识图谱读书笔记 一. 概述 1.1 什么是知识图谱 1.2 知识图谱发展历程 1.3 知识图谱类型 1.4 知识图谱生命周期 知识体系构建 知识获取 知识融合 知识存储 ...
- 知识图谱入门一:知识图谱介绍
知识图谱入门一: 一.知识图谱简介 1.1 引言 1.2 什么是知识图谱呢? 1.2.1 什么是图(Graph)呢? 1.2.2 什么是 Schema 呢? 1.3 知识图谱的价值在哪呢? 二.怎么构 ...
- nlp-知识图谱简介
知识图谱介绍 目录 知识图谱介绍 一.知识图谱简介 1.1 引言 1.2 什么是知识图谱呢? 1.2.1 什么是图(Graph)呢? 1.2.2 什么是 Schema 呢? 1.3 知识图谱的价值在哪 ...
最新文章
- 下列哪项不属于以太网交换机的特点_网络测试作业题
- springmvc的异常处理对静态的资源的处理
- 互联网送给我们的---“平等互助”
- 【转】[Hadoop源码解读](四)MapReduce篇之Counter相关类
- python编程菱形_Python打印“菱形”星号代码方法
- 大表ddl工具online-schema-change使用
- 嘘!偷偷教你们一个在双十一省钱的办法!
- 大学生计算机python_非计算机专业的大学生,想学习Python需要多长时间
- STL源码剖析 第二次温习 细节审核
- 1094:零起点学算法01——第一个程序Hello World!
- devops 技术_在DevOps时代雇用技术作家
- 无序数组求第K大/第K小的数
- mysql 8.0 ga_mysql 8.0 GA发布了
- 海康威视4G球机对接萤石云平台实现实时预览、云台控制 ----- java完整demo
- 学到一招!三行 Python 代码轻松提取 PDF 表格数据!
- 前端控制台返回406错误解决方法
- 世界互联网大会马云演讲实录
- Html 实现手风琴效果
- 蚂蚁全媒体中心刘鑫炜:从李子柒看如何打造成功的个人品牌形象
- Linux是什么?大牛十年Linux心得文档给你答案