Knowledge Graph Embedding: A Survey of Approaches and Applications【翻译】

原文地址：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8047276

论文名称：Knowledge Graph Embedding: A Survey of Approaches and Applications

作者：Quan Wang , Zhendong Mao , Bin Wang, and Li Guo

摘要

知识图(KG)嵌入是将包含实体和关系的KG构件嵌入到连续的向量空间中，从而在保持KG固有结构的同时简化操作。它可以用于多种下游任务，如KG构建和关系提取，因此很快得到了广泛的关注。在本文中，我们将系统地回顾现有的技术，不仅包括最先进的技术，而且还包括那些具有最新趋势的技术。特别地，我们根据嵌入任务中使用的信息类型进行审查。首先介绍仅使用在KG中观察到的事实进行嵌入的技术。我们描述了整体框架，具体的模型设计，典型的训练过程，以及这些技术的优缺点。在此之后，我们讨论进一步合并事实之外的附加信息的技术。我们特别关注实体类型、关系路径、文本描述和逻辑规则的使用。最后，我们简要介绍了如何将KG嵌入应用到各种下游任务中，并使之受益，如KG构建、关系提取、问题回答等。

Index Terms—Statistical relational learning, knowledge graph embedding, latent factor models, tensor/matrix factorization models

1 介绍

近年来知识图谱(KG)的构建和应用发展迅速。大量的知识图谱,如Freebase[1],DBpedia [2], YAGO[3],NELL[4],创建并成功地应用于许多实际的应用程序,从语义解析[5],[6]和命名实体消歧[7],[8],信息提取[9],[10]和问答系统[11],[12]。KG是由实体(节点)和关系(不同类型的边)组成的多关系图。每条边都表示为形式(头实体、关系、尾实体)的三个部分，也称为事实，表示两个实体由特定的关系连接，例如(AlfredHitchcock, DirectorOf, Psycho)。虽然在表示结构化数据方面很有效，但是这类三元组的底层符号特性通常使KG很难处理。

针对这一问题，一种新的研究方向被提出来——知识图谱嵌入（knowledge graph embedding），并迅速引起了人们的广泛关注:[13]、[14]、[15]、[16]、[17]、[18]、[19]。其关键思想是将包含实体和关系的KG组件嵌入到连续的向量空间中，从而在保持KG固有结构的同时简化操作。这些实体和关系嵌入可以进一步用于各种任务，如KG完成[14]、[15]、关系提取[20]、[21]、实体分类[13]、[22]、实体解析[13]、[18]。

目前大多数可用的技术仅根据观察到的事实来执行嵌入任务。对于给定的KG，这种技术首先表示连续向量空间中的实体和关系，并定义每个事实的评分函数来度量其合理性。实体和关系嵌入可以通过最大化观察到的事实的总可信度来获得。在整个过程中，所学习的嵌入只需要在每个单独的事实中兼容，因此对于下游任务[23]和[24]可能没有足够的预测性。因此，越来越多的研究者开始进一步利用其他类型的信息，如实体类型[25]、[26]、关系路径[27]、[28]、[29]、文本描述[30]、[31]、[32]、[33]，甚至逻辑规则[23]、[23]1、[23]0，来学习更多的预测性嵌入。

在本文中，我们将全面回顾当前可用的KG嵌入技术，包括那些仅使用事实的技术，以及那些进一步利用其他信息的技术。我们还将进一步介绍如何将学到的嵌入应用于各种面向实体的任务并从中受益。Nickel等人对KGs的统计相关学习方法进行了综述，包括嵌入技术、路径排序算法[37]、[38]、[39]，以及马尔科夫逻辑网络[40]、[41]、[42]。与他们的工作相比，我们特别关注KG嵌入，并对现有技术进行了系统的回顾，不仅包括最新的技术，还包括那些具有最新趋势的技术。特别地，我们根据这些技术中使用的信息类型来进行回顾。

本文的其余部分组织如下。第2节简要介绍基本符号。第3节回顾了仅使用KGs中观察到的事实进行嵌入的技术。我们描述了整体框架，具体的模型设计，典型的培训过程，以及这些技术的优缺点。第4节讨论进一步合并事实之外的其他信息的嵌入技术。我们主要关注实体类型、关系路径、文本描述和逻辑规则的使用。第5节进一步探讨了KG嵌入在下游任务中的应用，如KG完成、关系提取和问题回答。最后，我们在第6节中提出我们的结束语。

2 符号

3 事实本身的知识图谱嵌入

假设我们有一个KG，由n个实体和m个关系组成。事实在KG中以三元组的形式存储。每一个三元组由一个头部的实体、一个尾部的实体以及代表他们之间的关系组成。例如，(阿尔弗莱德希区柯克，导演，心理)。这里，E表示实体集，IR表示关系集。大多数当前可用的技术使用存储在KG中的事实来执行嵌入任务，强制嵌入与事实兼容。

假设我们有一个KG，由n个实体和m个关系组成。典型的KG嵌入技术通常包括三个步骤:(i)表示实体和关系，(ii)定义得分函数，(iii)学习实体和关系表示。第一步指定实体和关系在连续向量空间中表示的形式。实体通常用向量表示，即向量空间中的确定性点[13][14][15][16][19]。假设我们有一个KG，由n个实体和m个关系组成。最近在[45]的工作进一步考虑了实体的不确定性，并通过多元高斯分布对它们进行建模。通常将关系作为向量空间中的运算，向量空间可以表示为向量[14]、[15]、矩阵[16]、[18]、张量[19]、多元高斯分布[45]，甚至混合高斯[46]。然后,在第二步中,得分函数;用每个事实（h,r,t)来衡量其合理性。在KG中观察到的事实往往比那些没有观察到的有更高的分数。最后，学习这些实体和关系表示。

假设我们有一个KG，由n个实体和m个关系组成。我们大致将这种嵌入技术分为两类:平移距离模型(translational distance models )和语义匹配模型(semantic matching models)。前者使用基于距离的评分函数，后者使用基于相似性的评分函数。在本节中，我们首先介绍这两组嵌入技术，然后讨论它们的训练过程。然后，我们比较了这些嵌入技术的效率和有效性。

3.1平移距离模型

平移距离模型利用基于距离的评分函数。他们用两个实体之间的距离来衡量一个事实的合理性，通常是在通过关系进行翻译之后。

3.1.1 TransE及其扩展

TransE.

TransE[14]是最具代表性的平移距离模型（translational distance model）。它将实体和关系都表示为同一空间中的向量，比如Rd。给出一个事实(h,r,t),他们的关系可以用一个平移矢量（ translation vector）r代表，所以h和t可以用r连接,例如：h r≈t。这里的直觉来自于[47]，它学习分布式表示来获取语言规则，例如：Psycho - AlfredHitchcock ≈ Avatar - JamesCameron。在多关系数据中这样的类比是成立的，我们可以得到这样的关系：AlfredHitchcock DirectorOf ≈ Psycho and JamesCameron DirectorOf ≈ Avatar。图1a给出了这一想法的简单说明。得分函数被定义为h r和t之间的距离,即：

当事实(h,r,t)给定时，我们期望得分函数尽可能的高。

尽管TransE简单高效，但它在处理1-to-N、N-to-1和N-to-N关系[15]、[16]方面存在缺陷。以1-to-N的关系为例，给定一个关系r，有这样一个事实(h,r,ti),i=1,2,....p，Trans会强制使得h r≈ti，那么对于任意的i都有，t1≈t2≈....≈tp，那就意味着对于1-to-N的关系，Trans会给出相似的向量。同样的缺陷在N-to-1和N-to-N关系中也存在。

引入特定于关系的实体嵌入（Introducing Relation-Specific Entity Embeddings）

为了克服TransE在处理1-to-N、N-to-1和N-to-N关系时的缺点，一种有效的策略是允许实体在涉及不同关系时具有不同的表示。这样，即使Psycho、Rebecca和RearWindow的嵌入在关系 DirectorOf 的情况下可能非常相似，但在其他关系下它们仍然可能相距遥远。

TransH[15]通过引入关系特定的超平面，遵循了这一普遍思想。如图1b所示，TransH同样将实体建模为向量，而将关系r建模为超平面上的向量r，将wr建模为法向量。实体表示h和t首先投射到超平面,结果为：

得分函数定义为：

TransR[16]与TransH有着非常相似的想法。但它引入了特定于关系的空间，而不是超平面。在TransR中，实体被表示为实体空间Rd中的向量，每个关系与特定空间Rk相关联，并在该空间中建模为转换向量。

图1c给出了TransR的简单说明。虽然强大的建模复杂的关系,TransR介绍每个关系的投影矩阵,这需要O(dk)的复杂度。所以它失去的简单性和效率(TransE / TransH ,O(d))。后来在[48]和[49]中提出了一个更复杂的版本，在这个版本中关系需要使用两个矩阵描述，一个实体的头部是另一个实体的尾部。

[50]通过进一步将投影矩阵分解成两个向量的乘积来简化TransR。具体来说,对于每个事实(h,r,t),TransD引入了额外的映射向量wh;wt 和wr，以及实体关系表示。将两个投影矩阵M1 r和M2 r定义为：

将这两个投影矩阵分别应用于头实体h和尾实体t上，得到它们的投影，即：

对于投影实体，评分函数的定义方法与TransR中的相同。TransD需要O(nd mk)的复杂度和比TransR效率更高(需要O(nd mdk)。

TranSparse[51]是另一个通过在投影矩阵上加强稀疏性来简化TransR的工作。它有两个版本:TranSparse(share)和TranSparse(separate)。前者使用相同的稀疏投影矩阵Mr每个关系r,即。

后者介绍了两个独立的稀疏投影矩阵M1 和M2,一个表示实体的头，一个表示实体的尾。

Relaxing Translational Requirement h r ≈ t

除了允许实体具有不同的嵌入在参与不同的关系时,另一方面的研究,放松h r≈t的要求从而提高TransE。TransM[52]定义得分函数为：

通过分配较小的权重给1-to-N,N-to-1,和N-to-N的关系，TranM使t离h r的距离更远。得分函数定义为：

TransF[54]使用相同的思想，它强制要求平移h r≈t，而TransF只要求t和h r有相同的方向，并且h和t-r有相同的方向。所以得分函数在匹配t和h r的同时，也匹配h和t-r。

TransA[55]为每个关系r引入对称非负矩阵Mr，并使用自适应马氏距离定义评分函数，即：

3.1.2 高斯嵌入

该方法介绍了向量空间中的模型实体、关系和确定性点。最近的一些研究考虑了它们的不确定性，并将它们建模为随机变量[45]、[46]。KG2E[45]用多元高斯分布中的随机向量表示实体和关系，即：

根据平移假设，KG2E通过测量两个随机向量t-h和r之间的距离来给事实打分。使用两种类型的距离测量。一个是Kullback-Leibler散度[58]

另一个是引入的概率内积[59]

TransG[46]还对具有高斯分布的实体进行建模，即：

但它认为一个关系可以有多种语义，因此应该表示为高斯分布的混合，即，

因此，得分函数定义为：

它是由关系的不同语义引入的平移距离的混合。这些语义成分可以使用中餐馆流程[60]从数据中自动学习，[61]。

3.1.3其他距离模型

非结构化模型(UM)[56]是TransE的一个基础的版本，通过设置所有的r=0，使评分函数为：

结构化嵌入(SE)[57]使用两个独立的矩阵M1 r和M2 r来为每个关系r投射头实体和尾实体，得分为

表1总结了这些平移距离模型中使用的实体/关系表示和评分函数。对于所有的模型，都有对它们的约束，例如，强制向量嵌入最多有一个unit 2范数。在优化过程中将一些约束转化为正则化项。

3.2语义匹配模型

语义匹配模型利用基于相似性的评分函数。他们通过匹配实体和关系的潜在语义来衡量事实的可信性。

3.2.1 RESCAL及其扩展

RESCAL
RESCAL13将每个实体与一个向量相关联，以捕获其潜在语义。每一个关系都被表示为一个矩阵，该矩阵对潜在因素之间的相互作用进行了建模。得分函数被定义为一个双线性函数

DistMult。DistMult[65]通过将Mr限制为对角矩阵来简化RESCAL。得分函数被定义为：

这个分数只反映了h和t在同一维度上的分量之间的两两交互作用(也见图2b)。

Holographic Embeddings (HolE).

HolE[62]将RESCAL的表达能力与DistMult的效率和简单性结合起来。

本文由博客一文多发平台 OpenWrite 发布！