文章目录

  • 1 早期的知识库项目
    • 1、Cyc
    • 2、WordNet
    • 3、ConceptNet
  • 2 互联网时代的知识图谱
    • 1 Freebase
    • 2 DBpedia
    • 3 Schema.org
    • 4 Wikidata
    • 5 BabeINet
    • 6 NELL(Never-Ending Language Lcamer)
    • 7 Yago
    • 8 Microsoft ConceptGraph
    • 9 LOD
  • 3 中文开放知识图谱
  • 4 垂直领域的知识图谱

自人工智能概念提出依以来,构建大规模的知识库一直都是AI,NLP领域的核心任务之一。下面分别介绍早期的知识库项目、互联网时代的知识图谱,中文开放知识图谱和垂直领域的知识图谱。

1 早期的知识库项目

1、Cyc

Cyc 是持续时间最久、影响范围较广、争议也较多的知识库项目。Cyc 最初的目标是要建立人类最大的常识知识库。

Cyc知识库主要由术语(Term)和断言(Assertion)组成,术语包含概念、关系和实体的定义,断言用来建立术语之间的关系,既包括事实(Fact)描述,也包含规则(Rule)描述。最新的 Cyc 知识库已经包含有 50 万条术语和 700 万条断言、Cyc的主要特点是基于形式化的知识表示方法刻画知识。形式化的优势是可以支持复杂的推理,但过于形式化也导致知识库的扩展性和应用的灵活性不够。

2、WordNet

wordnet是最著名的词典知识库,由普林斯顿大学认知科学实验室从 1985 年开始开发。WordNet 主要定义了名词、动词、形容词和副词之间的语义关系。例如,名词之间的上下位关系,如“猫科动物”是“猫”的上位词:动词之间的蕴涵关系,如“打鼾”蕴涵“睡眠”等。

3、ConceptNet

最早源于 MIT 媒体实验室的 OMCS(Open Mind Common Sense)项目。 与Cyc 相比ConceptNet 采用了非形式化、更加接近自然语言的描述,而不是像 Cyc采用形式化的谓词逻辑,与链接数据和谷歌知识图谱相比,ConceptNet 比较侧重于词与词之间的关系,从这个角度来看,ConceptNet 更加接近于 WordNet,但是又比 WordNet 包含的关系类型多。

2 互联网时代的知识图谱

在一定程度上,互联网的出现帮助传统知工程突破了在知识获取方面的瓶颈。从 1998 年 Tim Bemers Lee 提出语义网至今,涌现了大量以互联网资源为基础的新一代知识库。这类知识库的构建方法可以分为三类:互联网众包、专家协作和互联网挖掘。

1 Freebase

是一个开放共享的、协同构建的大规模链接数据库。2005年MetaWeb启动的一个语义网项目,2010年谷歌收购,基于RDF三元组模型,底层采用图数据库进行存储,,2016年,谷歌见Freebase的数据API服务迁移至Wikidata,并关了freebase。

2 DBpedia

DBpedia 意指数据库版本的 Wikipedia,是早期的语义网项目,是从 Wikipedia 抽取来的链接数据集。DBpedia 采用了一个较为严格的本体,包含人、地点、音乐、电影织机构、物种、疾病等类定义。此外,DBpedia 还与 Freebase、OpenCYC、Bio2RDF等多个数据集建立了数据链接,DBpedia 采用 RDF 语义数据模型,总共包含 30 亿个 RDF三元组。

3 Schema.org

从 2011 年开始,由 Bing、Google、Yahoo 和 Yandex 等搜索引擎共同支持的语义网项目。Schema.org 支持各个网站采用语义标签(Semantic Markup)的方法将语义化的链接数据嵌入到网页中。搜索引擎自动收集和归集这些数据,快速地从网页中抽取语义化的数据。

Schema.org 提供了一个词语本体,用于描述这些语义标签。目前个词汇本体已经包含 600 多个类和 900 多个关系,覆盖范围包括个人、组织机构、地点、时间、医疗、商品等。

谷歌于 2015 年推出的定制化知识图谱支持个人和企业在其网页中增加包括企业联系方法、个人社交信息等在内的语义标签,并通过这种方式快速汇集高质量的知识图谱数据。谷歌的一份统计数据显示,超过 31%的网页和 1200 万家网站已经用了 Schema.org 发布语义化的链接数据。其他采用了部分 Schema.org 功能的还包 Cortana、Yandex、Pinterest、Siri 等。Schema.org 的本质是采用互联网众包的方式生成和收集高质量的知识图谱数据。

4 Wikidata

Wikidata目标是构建一个免费开放、多语言、任何人或机器都可以编辑修改的大规模链接知识库,Wikidata 由 Wikipedia 于 2012 年启动,早期得到微软联合创始人 Rllen、Gordon Betty Moore 基金会以及谷歌的联合资助。Wikidata 继承了 Wikipedia 的协作机制,但与 Wikipedia 不同的是,Wikidata 支持以三元组为基础的知识条目(item)的自由编辑。一个三元组代表一个关于该条目的陈述(Statement)。

例如,可以执球”的条目增加“<地球,地表面积是,五亿平方公里>”的三元组陈述。截至2018年,Wikidata 已经包含超过 5000 万个知识条目。

5 BabeINet

BabelNet 是类似于 WordNet 的多语言词典知识库。Babene 的目标是解决WOIN在非英语语种中数据缺乏的问题。BabelNet 采用的方法是将 WodNet 词典与 Wikipedia 集成。首先建立 WordNet 中的词与 Wikipedia 的页面标题的映射,然后利用 Wikipedia 中的多语言链接,再辅以机器翻译技术,给 WordNet 增加多种语言的词汇,BabelNe13.7 包含了 271 种语言、1400 万个同义词组、36.4 万个词语关系和 3.8 亿个从 Wikipedia 中抽取的链接关系,总计超过 19 亿个 RDF 三元组。BabelNet 集成了 WordNet 在词语关系上的优势和 Wikipedia 在多语言语料方面的优势,成功构建了目前最大规模的多语言词典知识库。

6 NELL(Never-Ending Language Lcamer)

NELL是卡内基梅隆大学开发的知识库。NELL 主要采用互联网挖掘的方法从 Web 中自动抽取三元组知识。NELL的基本理念是:给定一个初始的本体(少量类和关系的定义)和少量样本,让机器能够通过自学习的方式不断地从 Web 中学习和抽取新的知识。目前,NELL 已经抽取了 300 多万条三元组知识

7 Yago

Yago是由德国马普研究所研制的链接数据库。Yago 主要集成了 Wikipedia、 WordNet和 GeoNames 三个数据库的数据。Yago 将 WordNet 的词汇定义与 Wikipedia 的分类体系进行了融合集成,使得 Yago 具有更加丰富的实体分类体系。Yago 还考虑了时间和空间知识,为很多知识条目增加了时间和空间维度的属性描述。目前,Yago 包含 1.2 亿条三元组知识。Yago 也是 IBM Watson 的后端知识库之一。

8 Microsoft ConceptGraph

Microsoft ConceptGraph 是以概念层次体系为中心的知识图谱。与 Freebase 等知识图谱不同,ConceptGraph 以概念定义和概念之间的 IsA 关系为主。例如,给定一个概念“Microsoft”,ConceptGraph 返回一组与“微软”有 IsA 关系概念组“Company"“Softwarc Company”“Largest OS Vender”等,被称为概念化“Conceptualization”。ConceptGraph 可以用于短文本理解和语义消歧。例如,给定一个短文本“the engineer is eating the apple”可以利用 ConceptGraph 正确理解其中“apple”的含义是“吃的苹果”还是“苹果公司”微软发布的第一个版本包含超过 540 万个概念、1255 万个实体和 8760 万个关系。 ConceptGraph 主要通过从互联网和网络日志中挖掘数据进行构建。

9 LOD

LOD(Linked Open Data)的初衷是为了实现 Tim Berners-Lee 在 2006 年发表的有关链接数据(Linked Data)作为语义网的一种实现的设想。LOD 遵循了 Tim 提出的进行数据链接的四个规则,即:使用 URI 标识万物:使用 HTTP URI,以便用户可以(像访问网页一样)查看事物的描述:使用 RDF 和 SPARQL 标准;为事物添加与其他事物的 URI 链接,建立数据关联。LOD 已经有 1143 个链接数据集,其中社交媒体、政府、出版和生命科学四个领域占比超过90%。

3 中文开放知识图谱

OpenKG包含16类的知识图谱,同时包括56个知识图谱相关工具,此外经常发布知识图谱论文解读,OpenKG的官网链接:http://www.openkg.cn/

OpenKG是中国中文信息学会语言与知识计算专业委员会所倡导,由来自浙江大学、东南大学、同济大学等多个单位的知识图谱团队共同维护的开放知识图谱社区项目。

OpenKG目前主要包含三个子项目,由OpenKG工作组总体协调开展工作:

  • OpenKG开放资源共享平台: http://OpenKG.CN
  • 中文开放知识图谱Schema:http://cnSchema.org
  • 中文开放知识图谱众包平台:Openbase

4 垂直领域的知识图谱

领域知识图谱是相对于 DBPedia、Yago、Wikidata、百度和谷歌等搜索引擎在使用的通用知识图谱而言的,它是面向特定领域的知识图谱,如电商、金融、医疗等。相比较而言,领域知识图谱:

  • 知识来源更多
  • 规模化扩展要求更迅速
  • 知识结构更加复杂
  • 知识质量要求更高
  • 知识的应用形式也更加广泛

如表 1-1 所示,从多个方面对通用知识图谱和领域知识图谱进行了比较分析。下面以电商、医疗、金融领域知识图谱为例,介绍领域知识图谱的主要特点及技术难点。

知识图谱的经典知识库总结相关推荐

  1. 领域应用 | OMAHA联盟发布“疾病临床表现”、“中毒”知识图谱及OMAHA知识库

    转载公众号 | OMAHA联盟 资源发布 OMAHA已建立"七巧板"医学术语集."汇知"医学知识图谱.元数据等资源,将于每月发布其中一项.具体各项发布时间为:& ...

  2. TransE模型:知识图谱的经典表示学习方法

    传统的知识图谱表示方法是采用OWL.RDF等本体语言进行描述:随着深度学习的发展与应用,我们期望采用一种更为简单的方式表示,那就是[向量],采用向量形式可以方便我们进行之后的各种工作,比如:推理,所以 ...

  3. 历史最全、最细、近一年最新 知识图谱相关经典论文分享

    本资源包含了知识图谱相关最全.最细.以及近一年最新经典论文,涉及知识表示.知识建模.知识抽取基础(数据采.实体识别.关系抽取.事件抽取). 知识融合. 知识图谱表示学习.知识存储.基于知识的智能问答. ...

  4. 知识图谱嵌入经典方法(Trans系列、KG2E)

    1. 知识图谱嵌入 相关内容部分来自:https://zhuanlan.zhihu.com/p/147542008,https://mp.weixin.qq.com/s/Cb-CP1Tf2bv_hly ...

  5. 虚拟专题:知识图谱 | DDoS攻击恶意行为知识库构建

    来源:电信科学 DDoS攻击恶意行为知识库构建 刘飞扬, 李坤, 宋飞, 周华春 北京交通大学电子信息工程学院 摘要:针对分布式拒绝服务(distributed denial of service,D ...

  6. 生物医学知识库/知识图谱(英文+中文)盘点

    因为硕士研究方向是基于知识图谱的中文医学问答系统,所以调研了下现有的生物医学(BioMedical)和医学(Medical)知识库. 首先需要对上述两个概念做个区分,从我的理解来看,生物医学更加微观, ...

  7. 人工智能之知识图谱体系总结

    第一部分:知识图谱介绍 知识概念图谱介绍:知识是认知,图是载体,数据是实现,结构化的数据进行关联形成了知识图谱 知识图谱发展历程 人工智能的发展介绍:5次重要的发展里程碑 认知智能的基础:海量行为数据 ...

  8. 知识图谱入门学习笔记(一)-概念

    目录 1 知识图谱概念 1.1 深度学习与知识图谱​ 1.2 知识图谱 VS 传统知识库 VS 数据库 1.3 知识图谱本质 1.4 知识表示一语义网络(Semantic Network) 1.5 知 ...

  9. 知识图谱和语义网概述

    知识图谱和语义网概述 文章目录 知识图谱和语义网概述 一.知识图谱 1.1 知识图谱的发展 1.2 知识图谱与深度学习区别 1.3.知识图谱相关技术 1.4 经典的知识图谱 1.5 知识图谱的表示 二 ...

最新文章

  1. JSP WEB开发入门基础到高手进阶教程002
  2. spring boot整合mybatis+通用mapper+pagehelper分页插件
  3. ES6标准入门(第二版)pdf
  4. 后来,我再没被任何建筑类考试难倒过
  5. python AES使用
  6. Linux万兆网络配置
  7. iOS UiCollectionViewtroller 间距清0
  8. matlab中prod函数、mean函数、median函数——小白MAT LAB学习笔记
  9. html流控破解脚本,tc 流控脚本
  10. 中国大学慕课公开课-《视听语言》-学习笔记-1
  11. C#将自定义的时间字符串直接转换为UTC世界协调时间
  12. linux系统硬盘坏了,linux 系统 如何检测 磁盘 是否损坏?
  13. 2020国开c语言程序设计1075,中央电大秋季C语言程序设计期末试卷及答案代码1075,01(7页)-原创力文档...
  14. 回归基础 java基础数据 数据处理
  15. CQL 函数及多深度关系节点
  16. 苹果参战,迪士尼向左,奈飞向右,流媒体大战何去何从?
  17. VC++ CStdioFile文本文件读写
  18. M1 Mac会运行Windows吗?这取决于微软。
  19. HTML5+CSS大作业——个人旅游图片博客(7页)
  20. 2022/11/4电子体温计方案_单片机

热门文章

  1. c语言售票系统主要函数,c语言课设电影院售票系统.docx
  2. 2019年5月-8月每日收获的知识点
  3. 消息质量平台系列文章|全链路排查篇
  4. WebDay13 Linux基础
  5. MediaPlayer音视频播放
  6. html怎么让图片自动动起来,使用css让图片动起来
  7. [随笔] 不能卸,我舍不得。IE8,Beta2的。
  8. python中import包报错解决方法
  9. 例举电脑一键重装系统win10简单的步骤操作
  10. Pytest学习笔记4——测试步骤