知识图谱(一)——概述
一、序
深度学习训练的模型更像是一个具有统计知识的机器,从关联和概率的角度描述世界背后的“真理”。而我们期望机器能像人一样,具有分析和推理的能力。——知识图谱
1. 前提知识
本体:通过对象类型、属性类型及关系类型对领域知识进行形式化描述的模型。本体只对数据的定义进行了描述,而没有描述具体的实例数据。
知识是认知、图谱是载体、数据库是实现。
知识图谱以结构化三元组的形式存储现实世界中的实体及实体集合。
2.知识图谱与深度学习
a. 深度学习
本质:通过多层神经网络,自动学习处理对象的抽象表示。
缺陷:
- 需要大量的标注数据
- 结果不可解释,学习过程不可调控
- 端到端的学习过程很难加入先验知识
为了模拟人类的认知过程,进行更好的知识抽象和推理,人们定义了符号逻辑对知识进行表示和推理。(知识图谱)
分布假说:上下文相似的词,其语义也相似 。词的语义由上下文决定。
b. 知识图谱表示学习
将知识图谱用符号表示的实体和关系投影到低维向量空间中,这种表示能够体现实体和关系的语义信息,高效地计算实体、关系及其之间的复杂语义关联。
二、知识图谱的定义
知识图谱:一种揭示实体之间关系的语义网络。
1. 基础知识
信息:外部的客观事实。如:这里有一瓶水,它现在是7°。
知识:对外部客观规律的归纳和总结。如:水在零度的时候会结冰。
在信息的基础上,建立实体之间的联系,就能形成 “知识”。即,知识图谱由多条知识组成,每条知识是一个主谓宾三元组。
2. 知识图谱类型
a. 主客观性
- 事实性。“中国的首都是北京”。确定性的,不随状态的变化而改变的知识。
- 主观性。“很多人觉得苹果手机太贵了”。包含用户对苹果手机的意见和态度,但这一态度会随着评论者的变化而变化。
b. 变化性质
静态知识:不随时间、空间的变化而变化。如,某人的出生日期。
动态知识:如,美国总统,上一任是特朗普,这一任是拜登。
事件是动态知识的重要组成部分。
c. 知识的类型
- 领域知识:某个领域内特有的知识。如,法律知识、金融知识。
- 百科知识:涵盖各个行业、领域的通用知识。如,人物、机构、地点。
- 场景知识:某个特定场景下或需要完成某项任务时所需的知识。如,订票过程中需要提供的信息、盖房子的步骤。
- 语言知识:语言层面的知识。如,减肥和瘦身是同义词。
- 常识知识:大家都认可的知识。如,狗有四条腿。
3. 知识图谱的构建:自底向上
- 从开放链接数据(信息)中提取实体
- 选择置信度高的实体加入知识库
- 构建实体与实体之间的联系
三、知识图谱的生命周期
1. 逻辑结构
- 模式层:通过本体库规范数据层的事实表达。
- 本体——结构化知识库的概念模板
- 通过本体库形成的知识库层次结构较强、冗余程度较小。
- 数据层
- 一系列事实组成。知识以事实为单位存储,用三元组表达事实
- (实体1,关系,实体2)
- (实体,属性,属性值)
- 一系列事实组成。知识以事实为单位存储,用三元组表达事实
2. 知识体系构建
知识体系构建又称知识建模。采用什么样的方式表达知识,即构建一个本体对目标知识进行描述。
本体需要定义
- 知识的类别体系
- 每个类别下所属的概念和实体
- 某类概念和实体所具有的的属性
- 概念之间、实体之间的语义关系
- 在这个本体上一些推理规则
TIPS:本体——通过对象类型、属性类型及关系类型对领域知识进行形式化描述的模型
RDF:资源描述框架
- 资源:用RDF表示的对象,如实体、事件、概念
- 谓词:描述资源本身的特征和资源之间的关系。
- 陈述:RDF三元组<主体、谓词、宾语>,主体是被描述的资源。
2. 知识获取
从不同的数据来源中抽取出可用的知识单元(实体、关系、属性),形成事实表达,为上层模式层的构建奠定基础。
数据来源:爬取的数据,一般是非结构化数据。
信息抽取:处理非结构化数据。
(1) 结构化数据
(2) 半结构化数据
不能通过固定模板直接获得的结构化数据。
(3) 非结构化文本数据
信息抽取:从纯文本数据中进行知识获取。
- 实体识别
- 实体消歧
- 关系抽取
- 事件抽取
a. 实体识别
从文本中提取出实体,并对每个实体做分类/打标签。
- 命名实体:一般分为三大类(实体类、时间类、数字类)、七小类(人名、地名、机构名、时间、日期、货币和百分比)
- 领域实体:如股票名、汽车品牌、餐馆名等。
实体抽取:给定语料,构建一个实体列表,不需要在每个句子中确定实体的边界。
b. 实体消歧
消除指定实体的歧义。一个词有多个意思,根据不同的上下文中所表达的含义不同。
实体链接:给定文本中某一个实体指称项链接到已有知识图谱的某一个实体上。
知识图谱中,每个实体具有唯一的编号,链接消除了文本指称项的歧义。
实体聚类:通过聚类的方法消除语料中所有统一实体指称项的歧义,具有相同所指的实体指称项被聚为同一类别。
假设已有知识图谱中并没有已经确定的实体。
c. 关系抽取
将两个实体间的语义关系从文本中提取出来,如“商场在时代广场”,实体“商场”和实体“时代广场”的关系是“在”。
语义关系:一元关系(实体的类型)、二元关系(实体的属性)。
知识图谱包含多种语义关系:上下位关系、部分整体关系、属性关系。
例子:姚明1981年出生于上海。
(1) 任务分类
关系分类:判别给定的一句话中两个指定实体之间的语义关系。
假设实体是“姚明”和“上海”,关系分类是判别出它们之间具有“出生地”关系。
属性抽取:给定一个实体及一个预定义关系的条件下,抽取另外一个实体。
假设实体是“姚明”,给定关系是“出生地”,属性抽取是把表达姚明出生地的属性值抽取出来,即“上海”。
关系实例抽取:判断实体间关系和抽取满足该关系的知识实例数据。
给定实体“姚明”“上海”,基于现有的知识图谱和文本数据抽取和判断它们之间的关系。
(2) 方法分类
- 基于规则:自定义模板
- 监督学习方法
- 定义好所有的实体类型(20个)
- 定义好所有的关系类型(30种)
- 标注好的语料库(训练集)
- 半监督&无监督学习方法
- Bootstrap方法
- Distant Supervision
d. 事件抽取
从描述事件信息的文本中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来。
- 事件:发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或多个角色参与的,一个或多个动作组成的事件或状态的改变。
- 弥补现有以实体和实体关系为核心的知识图谱知识表达能力不足的问题。
- 事件抽取方法
- 基于模式匹配的事件抽取
- 基于机器学习的事件抽取
例子:“成龙和林凤娇于1982年12月1日在洛杉矶举行婚礼。
事件抽取是识别出
- 描述的“结婚”事件
- “结婚的双方”是“成龙”和“林凤娇”
- “结婚时间”是“1982年12月1日”
- “结婚地点”是“洛杉矶”
注:
(1)实体统一
有些实体写法不同,但是指向同一个实体。如“中华人民共和国民法典”与“民法典”,需要合并。
可以减少实体的种类,降低图谱的稀疏性。
(2)指代消解
文本的“他她它”到底指向哪个实体。
3. 知识融合
原因:知识来源广泛,知识质量良莠不齐、不同数据源的知识重复、知识间关联不够明确。
定义:使不同知识源的知识在同一框架规范下异构数据整合、消歧、加工、推理验证、更新,达到数据、信息、方法、经验、思想的融合。消除实体、关系、属性等【项与事实对象】之间的歧义。
核心:计算两个知识图谱中两个节点或边之间的语义映射关系。
- 融合的对象
- 知识体系的融合:两个或多个异构知识体系进行融合,相同的类别、属性、关系进行映射。
- 实例的融合:两个不同知识图谱的实例进行融合,包括不同知识体系下的实例、不同语言的实例。
- 融合的知识图谱类型
- 竖直方向的融合:融合高层通用本体与底层领域本体或实例数据。
- 水平方向的融合:融合同层次的知识图谱,实现实例数据的互补。
4. 知识存储
- RDF格式存储:资源描述框架
- 数据的易发布及共享
- 以三元组的方式存储数据且不包含属性信息
搜索效率低下。常用六重索引提高搜索效率。
- 图数据库
- 高效的图查询和搜索
- 以属性图为基本表示形式
优点:具备完善的图查询语言,支持大多数图挖掘算法。
缺点:数据更新慢,大节点处理开销大。
解决思路:子图筛选、子图同构判定
5. 知识推理
目的:构建的知识图谱存在知识缺失现象(处理数据的不完备性),并且无法利用抽取或融合方法补齐(数据的稀疏性),需要用推理的手段,在已有的知识库上进一步挖掘隐含的知识。
研究方向:知识图谱缺失关系的补足,挖掘两个实体之间隐含的语义关系。
- 基于传统逻辑规则的方法进行推理:如何自动学习推理规则,如何解决推理过程中的规则冲突问题。
- 基于表示学习的推理:基于分布式表示的语义向量相似度计算任务。
6. 知识应用
将实体的语义信息表示为稠密低维实值向量,在低维空间中计算实体、关系之间的复杂语义关联。
a. 智能搜索
用户查询输入——分词——描述归一化——知识库匹配(检索实体)——结果
意图识别:识别查询词中的实体和属性。如用户查询“姚明运动员”,若仅使用关键词匹配,会返回所有“姚明”的网页,采用意图识别将“姚明”和“运动员”关联。
b. 自动问答
利用知识图谱实体和关系进行推理。如提问“姚明是哪里人”,首先找到实体“姚明”,连接该实体的所有关系中匹配“哪里人”,最后确定答案“上海”。
c. 推荐
利用实体和关系向用户推荐相关产品。
d. 决策支持
把领域内的复杂知识通过信息抽取、数据挖掘、语义匹配、语义计算、知识推理等过程精确地描述出来,并且描述知识的演化过程和发展规律,从而为研究和决策提供准确、可追踪、可解释、可推理的知识数据。
参考文献:
[1] 什么是知识图谱? https://zhuanlan.zhihu.com/p/71128505
[2] 知识图谱的技术与应用(18版) https://zhuanlan.zhihu.com/p/38056557
[3] 赵军.知识图谱[M].高等教育出版社.2018:293.
知识图谱(一)——概述相关推荐
- 知识图谱核心技术(一):知识图谱的概述
知识图谱核心技术(一):知识图谱的概述 前言: 知识图谱作为一项新的研究领域,极大地推动了人工智能的智能化发展,传统意义上的人工智能大多以数据驱动为核心,但离智能化还有一定的差距.知识图谱作为以知 ...
- 知识图谱_概述:课程PPT+个人理解
//2019.05.08 一.概念(是什么) 1.知识 :有不同的解释,可以是"不变的真理"."经验.背景.解释"."交工的信息" (1)分 ...
- 综述 | 知识图谱发展概述
作者丨姜天文 学校丨哈工大SCIR博士生 本文经授权转载自公众号「哈工大SCIR」. "知识图谱(Knowledge Graph)"的概念由 Google 公司在 2012 年提出 ...
- 【知识图谱】国内知识图谱应用概述
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成.在知识图谱里,每个节点表示现实世界中存在的"实体",每条边为实体与实体之间的" ...
- 史上最全《知识图谱》2020综述论文!!!
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 知识图谱是当下的研究热点.最近18位学者共同撰写了一篇<知识图谱>综述 ...
- 复旦大学肖仰华教授:知识图谱与认知智能 | 附PPT下载
关于作者:肖仰华博士,复旦大学计算机科学与技术学院教授,博士生导师,知识工场实验室负责人. 报告摘要:人类社会已经进入智能化时代.各行各业纷纷踏上智能化升级与转型的道路,各类智能化应用需求大量涌现.这 ...
- 开源开放 | 欢迎选修浙江大学《知识图谱》开放共享慕课
点击"阅读原文"或扫描图中二维码进入课程 教学计划 第一章知识图谱概论 1.1 语言与知识 1.2 知识图谱的起源 1.3 知识图谱的价值 1.4 知识图谱的技术内涵 第二章知识图 ...
- 《知识图谱》2020综述论文,18位作者, 130页pdf,547篇参考文献
点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟 报道 | 公众号 CVLianMeng 转载于 :arvix.2003.02 ...
- 【报告分享】2020年中国知识图谱行业研究报告.pdf(附下载链接)
今天给大家分享的报告是艾瑞于2020年3月份发布的<去往认知海洋的一艘船-2020年中国知识图谱行业研究报告.pdf>,报告包含如下四大部分: 1.知识图谱技术概述: 2.中国知识图谱市场 ...
- A Survey on Knowledge Graphs___Representation, Acquisition and Applications.知识图谱综述:表示,获取,应用
知识图谱综述:表示.获取及应用 这是研究生第一篇综述文章,第一次读也是花了好几天的时间. 摘要:人类的知识提供了对世界的一种形式的理解.表征实体之间结构关系的知识图已成为认知和人的智能研究的热门方向. ...
最新文章
- SpringBoot-web开发(三): 模板引擎Thymeleaf
- 制作initrd(2):update-initramfs和mkinitramfs脚本分析
- 有关数据库的多库查询
- Java单链表反转 详细过程
- 深入理解jQuery插件开发(转)
- 肺结节目标检测_有肺结节就代表离肺癌不远了?别吓自己,简单几问解答你的困惑...
- 常用容器管理器易受危险 exploit 攻击
- OpenCV-图像处理(02、矩阵的掩膜操作)
- 你相信这是XP经典桌面拍摄地现在的模样吗?
- myline java线段类,2008010 编写一个线段类 MyLine 联合开发网 - pudn.com
- 通信软件开发与应用结业报告
- php传值和引用哪个效率高,php方法传值和传引用性能比较
- 涂抺mysql 李丙洋_涂抹
- 无线CE认证中的DFS测试
- 路由跳转时的页面状态保存
- E-Learning应用四人谈
- 一线城市软件测试工资——你拖后腿了吗
- BKEX Global持续关注加密市场,甄选可信赖的投资板块
- 100V输出12V/10A,5V/3.1ADC-DC异步降压芯片
- 如何做一个基于JAVA景点景区售票系统毕业设计毕设作品(springboot框架)