Discontinuous Named Entity Recognition as Maximal Clique Discovery

摘要
1介绍
2相关工作
3方法
- 3.1网格标注方案
- - 3.1.1段提取
  - 3.1.2边预测
- 3.2 解码工作流
- 3.3 模型结构
- - 3.3.1tokens表示
  - 3.3.2 段提取器
  - 3.3.3 边预测器
- 3.4 训练和推理
4 评估
- 4.1 数据集
- 4.2 实现细节
- 4.3 对比模型
- 4.4 主要结果
- 4.5 模型消融研究
- 4.6 性能分析
- - 4.6.1重叠结构的影响
  - 4.6.2间隔和跨度长度的影响
  - 4.6.3运行速度分析
5 结论

摘要

当实体mention可能是不连续的时，命名实体识别(NER)仍然具有挑战性。现有的方法将识别过程分成几个连续的步骤。在训练中，他们根据黄金中间golden intermediate结果进行预测，而在推理时则依赖于前几步的模型输出，这就引入了暴露偏差。为了解决这一问题，我们首先为每个句子构造一个线段图，其中每个节点表示一个线段(本身是一个连续实体，或不连续实体的一部分)，并通过一条边连接属于同一实体的两个节点。节点和边可以用网格标记方案在一个阶段分别生成，并使用新的Mac体系结构共同学习。然后将不连续NER重构为在图中发现极大团并连接每个团的span的非参数过程。在三个基准测试上的实验表明，我们的方法优于最先进(SOTA)的结果，在F1上提高了3.5个百分点，比SOTA模型加速5倍。

1介绍

命名实体识别(name Entity Recognition, NER)的任务是从文本中检测真实世界的实体，并将其分类为预定义类型。NER使许多自然语言处理应用程序受益(例如，信息检索(Berger和Lafferty, 2017)、关系提取(Y u等人，2019)和问题回答(Khalid等人，2008))。
NER方法得到了广泛的研究，研究者们提出了一些有效的方法。大多数以前的方法将此任务转换为序列标记问题，其中每个标记都被分配一个表示其实体类型的标签。他们的基本假设是，一个实体的提及应该是一个短的文本跨度(Muis和Lu, 2016)，并且不应该相互重叠。虽然这种假设在大多数情况下是有效的，但并不总是成立，特别是在临床语料库中(Pradhan et al.， 2015)。例如，图1显示了两个带有重叠段的不连续实体。因此，有必要超越连续实体，设计出提取不连续实体的方法。
为了实现这个目标，当前最先进的(SOTA)模型可以分为两类:基于组合的和基于转换的。基于组合的模型首先检测所有重叠的跨度，然后学习将这些片段与一个单独的分类器组合(Wang和Lu, 2019);基于转移的模型通过一系列shift-reduce的动作递增地标记不连续的跨度(Dai等人，2020b)。尽管这些方法已经取得了合理的性能，但它们仍然面临着同样的问题:暴露偏差(Zhang et al.， 2019)。具体来说，基于组合的方法在训练过程中使用黄金片段gold segments来指导分类器，而在推理时，输入片段是由一个训练过的模型给出的，这导致了训练和推理之间的差距(Wang和Lu, 2019)。对于基于转换的模型，在训练时，当前操作依赖于之前的操作，而在测试阶段，整个操作序列由模型生成。因此，一个曲解的预测将进一步偏离后续行动的预测。这种累积的差异可能会损害性能。
为了克服前人研究的局限性，我们提出了Mac，一个基于极大团发现的不连续NER模型。Mac背后的核心观点是，句子中提到的所有实体(可能是不连续的)都可以自然地形成一个线段图，方法是将它们所包含的连续段解释为节点，并将同一实体的片段相互连接为边。然后将不连续NER任务等价于从图中寻找极大团，这是图论中研究较多的问题。那么，剩下的问题就是如何构造这样的线段图。在Mac中，我们将其分解为两个不耦合的子任务，段提取(SE)和边预测(EP)。通常，给定一个n-token句子，SE和EP会分别形成两个n × n的标签表，每个条目捕获两个单独token之间的交互interaction。然后将SE视为一个标记问题，通过分配标签来区分每个段的边界tokens，这对识别重叠段有好处。EP被转换为对齐同一实体中包含的段的边界tokens的问题。总体而言，SE和EP的标签表是独立生成的，通过极大团搜索算法将标签表一起使用，从标签表中恢复所需的实体，从而避免exposure bias问题。
我们在三个标准的不连续NER基准上进行了实验。实验表明，Mac能够有效地识别不连续的实体提及，而不牺牲连续提及的准确性。这就导致了这项任务的新状态(SOTA)，与之前报告的最佳结果相比，它获得了高达3.5%的绝对百分点的实质性收益。最后，我们展示了在GPU环境下的运行时实验，Mac比SOTA模型快5倍。

2相关工作

不连续NER要求识别所有提到的具有不连续结构的实体。为了实现这一目标，一些研究者在传统的BIO标记方案中引入了新的位置指示器，从而使顺序标记模型得以应用。然而，由于扩展标签集的灵活性有限，该模型存在标签歧义问题。随着改进，Muis和Lu(2016)使用超图来表示实体广度及其组合，但没有完全解决模糊问题(Dai等人，2020b)。Wang和Lu(2019)提出了一个管道框架，该框架首先检测实体的所有候选跨度，然后将它们合并成实体。通过将任务分解为两个相互依赖的步骤，该方法不存在模糊性问题，但同时容易受到暴露偏差的影响。最近，Dai等(2020b)构建了一个用于识别不连续和重叠结构的过渡动作序列。在训练时，它以事实为条件预测之前的动作，而在推理时，它必须根据之前步骤的结果选择当前的动作，从而导致暴露偏差。在本文中，我们首次提出了一种one-stage的方法来处理不连续的NER，同时不存在歧义问题，实现了训练和推理的一致性。
联合提取的目的是使用单个模型检测实体对及其关系(Y u等人，2020)。不连续NER与联合提取有关，其中不连续的实体可以被视为片段之间的关系链接(Wang and Lu, 2019)。我们的模型是由TPLinker (Wang et al.， 2020)推动的，该模型通过对齐实体对的边界tokens，将联合提取定义为tokens对连接问题。我们的模型与TPLinker的主要区别有两个方面:(1)我们提出了一种用于识别不连续片段的定制标记方案;(2)在模型中引入极大团发现算法，实现不连续段的准确合并。
极大团发现是在一个给定的图中找到一个最大大小的团(Dutta和Lauri, 2019)。这里，一个团是所有成对相邻的顶点的子集。极大团发现广泛应用于不同的领域(Stix, 2004;Boginski等人，2005年;Imbiriba等人，2017)。在本文中，我们通过构造一个线段图并利用经典的B-K回溯算法(Bron and Kerbosch, 1973)来找到所有作为实体的极大团，将不连续NER重构为发现极大团的任务。

3方法

在图论中，团是无向图的顶点子集，其中团中的每两个顶点相邻，而极大团是不能通过包含多个相邻顶点而扩展的顶点。这意味着极大团中的每个顶点之间的关系都很密切，不能再添加其他顶点，类似于不连续实体中的线段关系。基于这一观点,我们认为不连续NER可以等同于解释为发现极大团的线段图, 节点表示单独形成实体或作为不连续实体的一部分出现的段，而边连接属于同一实体的段。

考虑到极大团搜索过程通常是非参数化的(Bron and Kerbosch, 1973)，不连续NER实际上分解为两个子任务:段提取和边预测，分别创建线段图的节点和边。它们的预测结果可以用我们提出的网格标记方案独立生成，并将被一起使用来构造一个线段图，从而可以应用极大团发现算法来获得所需的实体。图2描述了整个提取过程。接下来，我们将首先介绍我们的网格标记方案及其解码工作流程。然后，我们将详细介绍Mac，一个基于极大团发现的不连续NER模型。

3.1网格标注方案

受Wang等人(2020)的启发，我们基于一种新的网格标记方案实现了单阶段的段提取和边预测。给定一个n个标记句，我们的方案通过列举所有可能的标记对，并根据token对之间的关系给标记对一个n × n个token表。请注意，根据预定义的标记集，一个token对可能有多个标记。

3.1.1段提取

如图1所示，实体mention可能相互重叠。为了使我们的模型能够提取这些重叠的片段，我们构造了一个二维标签表。图3提供了一个示例。如果从ti到tj的段属于相应的类别，那么一对tokens(ti, tj)将被分配一组标签。考虑到j≥i，我们丢弃了标签表的下三角区域，因此实际上为n个标记句生成了(n^2+ n)/2个网格。在实践中，BIS标记方案被用来表示一个段是一个连续的实体(X- s)，或者位于一个类型X的不连续实体的开头(X- b)或内部(X- i)。。例如，(upper, body)被分配为标记POB- s，因为“upper body”是一个类型为Part of body (POB)的连续实体。(Sever, joint)标签为ADE- b，其中“Sever joint”是类不良药物事件(ADE)中间断提及的“Sever joint pain”的开始部分。同时，由于在(joint, joint)的位置有一个POB-S标签，因此“joint”也被识别为一个实体，从而解决了重叠段的提取问题。

3.1.2边预测

边预测是通过对齐同一实体mention的段的边界token来构造它们之间的链接。标记方案的定义如下:(1)head - to - head (X- h2h)表示它位于(ti, tj)的位置，其中ti和tj分别是构成同一类型X实体的两个段的起始标记;(2)尾对尾(X-T2T)类似于X-H2H，但侧重于结束标记。如图4所示，“Sever”与“shouder”和“pain”之间存在ADE-H2H和ADE-T2T关系，因为 “Sever shoulder pain”这个不连续实体mention的类型为不良药物事件(Adverse Drug Event)。同样的逻辑也适用于矩阵中的其他标签。

3.2 解码工作流

解码过程在算法1中进行了概括。句子T的段标记表S和边标记表E作为输入。首先，通过对s的解码，提取出所有类型化的段，然后构造一个段图G，其中属于同一实体(从E解码而来)的段彼此有边。图2给出了一个示例。相应地，我们可以直接从单顶点团中得到一个连续实体，并按照T中的原始顺序连接每个多顶点团multiple-vertex clique中的片段，以恢复不连续的实体提及entity mentions.。我们选择经典的B-K回溯算法(Bron and Kerbosch, 1973)来寻找G中的极大团，该算法需要时间，其中m为节点数。

3.3 模型结构

通过网格标记方案，我们提出了一个名为Mac的端到端神经体系结构。图5展示了其总体结构。

3.3.1tokens表示

给定n-token 句[t1，···，tn]，我们首先用一个基本编码器将每个token ti映射到一个低维上下文向量hi。然后，我们生成了两个表征representations hsi和hei，分别作为段提取器segment extractor和边预测器edge predictor的任务特定特征。

其中是一个参数矩阵，是训练过程中要学习的偏差向量。

3.3.2 段提取器

一对token为段边界token的概率可以表示为:P (ti, tj) = P (e = tj|b = ti)P (b = ti)，(3)其中b和e表示起始标记和结束标记。在我们的标记方案中(图3)，我们在第i行有一个固定的开始标记ti，并以给定的开始tokens作为标记相应结束tokens的条件，因此第i行中的P (b = ti)总是1。因此，我们只需要计算P (e = tj|b = ti)。受Su(2019)和Y u等人(2021)的启发，我们利用条件层标准化(CLN)机制对条件概率进行建模。也就是说，引入一个条件向量作为额外的上下文信息，生成已知的层归一化机制的增益参数γ和偏差λ (Ba et al.， 2016)如下所示

其中c和x分别是条件向量和输入向量。Xi表示x的第i个元素，µ、σ分别为x元素的均值和标准差。X首先通过固定均值和方差进行归一化，然后分别按γc和λc进行缩放和移动。基于CLN机制，tokens对(ti, tj)表示为段边界可定义为:

这样，对于不同的ti，可以产生不同的LN参数，从而有效地调整hj，使其更具有ti特异性。
此外，除了边界token的特性外，我们还考虑了内部token和段长度，以学习更好的段表示。具体来说，我们部署了一个LSTM网络(Hochreiter and Schmidhuber, 1997)来计算内部tokens的隐藏状态，并使用一个查找表来嵌入段长度。由于结束标记总是在开始标记的后面，所以在每一行ri中，只有ti后面的标记将被输入LSTM。我们将每个时间步长tj输出的隐藏状态作为片段si:j的内部tokens表示。那么从ti到tj段的表示可以定义为:

3.3.3 边预测器

边缘预测与段提取类似，因为它们都需要学习每个tokens对的表示。主要区别在于:(1)段之间的距离通常信息量不大，因此在边缘预测中嵌入长度e-leni:j是没有价值的;(2)对片段之间的tokens进行编码可能会携带噪声语义进行相关标记，加重训练负担，因此不需要h-in-i:j。基于此，我们将用于边缘预测的每个tokens对表示为:

3.4 训练和推理

在实践中，我们的网格标记方案旨在为每个tokens对标记大多数相关的标签，因此可以将其视为一个多标签分类问题。一旦有了全面的tokens对表示(hsi:j和hei:j)，我们就可以通过全连接网络构建多标签分类器。在数学上，(ti, tj)的每个标签的预测概率可以通过以下方法估计:

其中I∈{s, e}是子任务指标符号，分别表示分段提取和边缘预测，pIi,j的每个维数表示ti和tj之间出现标签的概率。使用sigmoid函数将投影值转换为概率，此时可以使用交叉熵损失作为损失函数，该损失函数已被证明适用于多标签分类任务:

式中KI为I中预定义标签的个数，pIij[k]∈[0,1]为(ti, tj)沿第k个标签的预测概率，yIij[k]∈{0,1}为相应的ground truth。当I = e时，sI = 1;当I = s时，sI = 1。然后将分割提取和边缘预测的损失相加，形成训练目标J (θ):

在推理时，概率向量pIij需要阈值转换为标签。我们列举了范围(0,1)中的几个值，并选择在验证(dev)集上最大化评估指标的那个值作为阈值。

4 评估

4.1 数据集

在之前的工作(Dai et al.， 2020b)之后，我们对生物医学领域的三个基准数据集进行了实验:
(1)CADEC (Karimi et al.， 2015)来自AskaPatient:一个在线论坛，患者可以在这里讨论他们的药物治疗经验。我们使用Dai等人(2020b)预处理的数据集，该数据集从原始数据集中选择了不良药物事件(Adverse Drug Event, ADE)标注，因为只有ADEs涉及不连续标注。
(2) ShARe 13 (Pradhan et al.， 2013)和
(3)ShARe 14 (Mowery et al.， 2014)侧重于识别临床记录中提到的疾病，包括出院总结、心电图、超声心动图和放射学报告。在这三个数据集中，大约10%的提及是不连续的。表1报告了数据集的描述性统计。

表1:数据集统计。S、M、D分别代表句子数、总提及数和不连续提及数。P为不连续提及占总提及的百分比。

4.2 实现细节

我们在领域内的BERT基模型上实现了我们的模型:用于CADEC的Yelp BERT，用于ShARe 13和ShARe 14的Clinical BERT。网络参数由Adam以1e-5的学习速率进行优化。batch size固定为12。将概率转换为标签的阈值设置为0.5。所有超参数都是在开发集上调优的。我们在NVIDIA Tesla V100 GPU上进行了最多300个epoch的实验，并选择在开发集上性能最好的模型在测试集上输出结果。我们用随机初始化的5次运行中的中位数开发分数报告运行的测试分数。

4.3 对比模型

为了进行比较，我们采用以下模型作为基线:
(1)BIOE扩展了BIO标签方案，增加标签来表示不连续实体;
(2) Graph (Muis and Lu, 2016)使用超图组织实体广度及其组合;
(3) Comb (Wang and Lu, 2019)首先检测实体广度，然后部署一个分类器将它们合并。为了进行比较，我们重新实现了基于现场BERT骨干网Comb;
(4) TransE (Dai et al.， 2020b)是目前最好的不连续NER方法，它利用缓冲区和堆栈结构生成一系列动作来检测实体;注意，原始的TransE模型是基于ELMo的。
为了与我们的模型进行公平的比较，我们还实现了基于bert的领域内Trans模型，即TransB。

4.4 主要结果

表2报告了我们的模型对比其他基线方法的结果。我们有以下观察。
(1)我们的方法Mac明显优于其他所有方法，在三个数据集上都取得了SOTA F1分数。
(2)基于bert的Trans模型比基于elmo的Trans模型的结果更差，这与本文的观点一致。
(3)在SOTA方法TransE上，Mac在三个数据集上F1得分平均提高了2.6%。Wilcoxon检验表明，我们的模型与TransE之间存在显著性差异(p < 0.05)。我们认为这是因为TransE本质上是一个多阶段的方法，因为它引入了几个相关的动作，因此存在暴露偏差问题。而我们的Mac方法将不连续的NER任务优雅地分解为两个独立的子任务，并结合一个联合模型进行学习，实现了训练和推理的一致性。
(4) CombB可以近似地看作是我们方法的流水线版本，它们的性能差距再次证实了我们的一阶段学习框架的有效性。

表2:三个基准数据集的主要结果。在所有型号中，黑体字标记的数字最高。

表3:不连续实体提及结果。在该表中，报告了两个分数，用斜杠(“/”)分隔。前者是句子中至少提到一个不连续实体的分数。后者是仅考虑不连续实体提及的分数。
如表1所示，在三个数据集中，只有大约10%的提及是不连续的，远远少于连续实体提及。为了评估我们提出的模型在识别不连续提及方面的有效性，在Muis和Lu(2016)之后，我们报告了至少包含一次不连续提及的句子的结果。当只考虑不连续提及时，我们也会报告评估结果。在表3中，这两个设置中的分数用斜杠分隔。比较表2和表3，我们可以看到，在测试完整数据集时，BIOE模型比Graph模型表现得更好，但在不连续提及时则要差得多。一直以来，我们的模型在F1得分方面再次击败了基线模型。尽管有些型号在精度或召回方面优于Mac，但它们极大地牺牲了另一个分数，这导致F1分数低于Mac。

4.5 模型消融研究

为了验证每个组件的有效性，我们一次消耗一个组件，以了解其对性能的影响。具体来说，我们研究了段的标记方案，段长度嵌入，CLN机制(用向量连接代替)，以及段的内部标记表示。
由表4所示的这些消融，我们发现:
(1) 我们发现:(1)当我们把B、I和S标记段提取作为一个类,得分略有下降了0.5%,这表明不同位置的部分实体可能有不同的语义特征,所以区分他们可以减少混乱的过程中模式识别;
(2)当我们去除片段长度嵌入(公式9)时，F1的整体得分下降了0.6%，说明需要让片段提取器意识到tokens对距离信息，通过隐式距离约束过滤掉不可能的片段;
(3)与拼接相比，使用CLN(公式7和11)融合两个tokens的特征是更好的选择，提高了1.9%;
(4)去除片段内部特征(公式8)，F1总分下降显著，间断提及分数下降不大，说明内部tokens信息对于识别连续实体提及至关重要。总之，我们可以得出这样的结论:网格编码器的改进带来了显著的性能收益。

4.6 性能分析

4.6.1重叠结构的影响

正如引言中所讨论的，在不连续的实体提及中，重叠是非常常见的。为了评估我们的模型提取重叠结构的能力，如(Dai et al.， 2020b)所示，我们将测试集分为四类:
(1) 无重叠;(2)左重叠;(3)正确的重叠;(4)多重重叠。
图6给出了每个重叠模式的示例。如图7所示，Mac在所有重叠模式上的表现都优于TransE。TransE在某些模式上得分为零。这可能是由于这些重叠模式在训练集中的样本相对较少(见表5)导致训练不足，而基于转换的模型的顺序动作结构缺少一点数据。相比之下，Mac对重叠模式的适应性更强，我们将性能的提高归因于两种设计选择:
(1)网格标记方案在准确识别重叠的线段并将其组装成线段图方面具有强大的能力;
(2)基于图的极大团发现算法可以有效地恢复所有提及的候选重叠实体。

4.6.2间隔和跨度长度的影响

片段之间的间隔通常会使不连续句的总长度比连续句的长。考虑到涉及的部分，整个跨度甚至更长。也就是说，不连续提及的不同单词之间可能距离遥远，这使得不连续NER任务比传统的NER任务更难。为了进一步评估Mac在不同设置下的鲁棒性，我们分析了测试集在不同间隔和跨度上的结果。
间隔长度是指不连续段之间的单词数。跨度长度是指整个跨度的字数。例如，对于在“严重的关节、肩膀和上半身疼痛”中提到“严重的肩膀疼痛”的实体。，则间隔长度为5，跨度长度为8。这样的现象需要模型能够捕获远段之间的语义依赖关系。
为了便于分析，我们分别在表6和表7中报告了所有数据集在区间和跨度长度上的分布。图8为TransE和Mac在不同间隔和跨度下的F1得分。正如我们所看到的，Mac在大多数情况下都优于TransE。
即使在某些情况下，Mac失败了，但是这种情况下的样本数量太小，无法证明Mac的优越性。例如，在CADEC上，TransE在span length为8时表现优于Mac，而测试集中的样本数量只有10。

我们发现了一个有趣的现象:当interval length为1,span length为3时，尽管对应的训练样本足够(如表6中的length = 1，表72中的length = 3)， Mac和TransE的表现都很差。这可能是由两个方面引起的
:(1)即使训练样本足够，但训练样本的特征和上下文与测试集中的特征和上下文不同
;(2)间隔长度为1的不连续提及比其他的更为困难，因为仅用一个词将片段分隔开来，使得这些不连续提及与连续提及非常相似，这使得模型将其视为连续提及而感到困惑。我们把这个问题留给将来的工作去解决。

4.6.3运行速度分析

表8显示了SOTA模型TransE、TransB和我们提出的Mac之间的计算效率比较。所有这些模型都是由Pytorch实现的，运行在单个特斯拉V100 GPU环境中。我们可以看到Mac的预测速度比TransE快5倍左右。由于基于过渡的模型使用堆栈存储部分处理的跨度，使用缓冲区存储未处理的tokens，因此很难利用GPU并行计算来加速提取过程。在正式的实现中，TransE每次只能处理一个tokens，这意味着它的效率非常低，很难在实际的开发环境中部署。而Mac能够以批处理的方式处理数据，因为它本质上是单级序列标记模型。

5 结论

在本文中，我们将不连续NER重新定义为在一个段图中发现极大团的任务，并提出了一种新的Mac架构。该方法将线段图的构造分解为两个独立的二维网格标注问题，并在一个阶段共同解决，解决了以往研究中暴露偏倚的问题。在三个基准数据集上的大量实验表明，Mac在F1中比之前的SOTA方法快了3.5分，速度是之前的5倍。进一步的分析表明，我们的模型能够识别不连续和重叠的实体提及。在未来，我们希望在其他信息提取任务中探索类似的公式，如事件提取和嵌套NER。

源论文为Yucheng Wang等发布于ACL2021，如有侵权，请联系博主删除！！！
源代码链接：https://github. com/131250208/InfExtraction

Discontinuous Named Entity Recognition as Maximal Clique Discovery相关推荐

TENER: Adapting Transformer Encoder for Named Entity Recognition 笔记
TENER: Adapting Transformer Encoder for Named Entity Recognition Abstract(摘要) 1 Introduction(介绍) 2 R ...
python命名实体识别工具_Day14：使用斯坦福 NER 软件包实现你自己的命名实体识别器（Named Entity Recognition，NER）...
编者注:我们发现了有趣的一系列文章<30天学习30种新技术>,正在翻译中,一天一篇更新,年终礼包.下面是第 14 天的内容. 我并不是一个机器学习(Machine Learning).自然 ...
NER项目--github--A Unified MRC Framework for Named Entity Recognition
A Unified MRC Framework for Named Entity Recognition项目代码简述项目结构 models model_config.py classifier.p ...
自然语言处理NLP之分词、词性标注（POS）、组块分析（Chunking）、命名实体识别（Named Entity Recognition，简称NER）
自然语言处理NLP之分词.词性标注(POS).组块分析(Chunking).命名实体识别(Named Entity Recognition,简称NER) 目录
Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning（DS——NER识别（减少人工参与））
目录 Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning 前言文章贡献 Risk定义--基 ...
PapeDeading:Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition
Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition 文章目录摘要结论 ...
【论文精读】A Survey on Deep Learning for Named Entity Recognition
A Survey on Deep Learning for Named Entity Recognition 前言 Abstract 1. INTRODUCTION 2. BACKGROUND 2.1 ...
[论文阅读笔记14]Nested named entity recognition revisited
一, 题目 Nested Named Entity Recognition Revisited 重访问的嵌套命名实体识别二, 作者 Arzoo Katiyar and Claire Cardie D ...
论文阅读笔记-FGN: Fusion Glyph Network for Chinese Named Entity Recognition
论文地址:paper:https://arxiv.org/ftp/arxiv/papers/2001/2001.05272.pdf github地址:github:https://github.com ...

Discontinuous Named Entity Recognition as Maximal Clique Discovery

Discontinuous Named Entity Recognition as Maximal Clique Discovery

摘要

1介绍

2相关工作

3方法

3.1网格标注方案

3.1.1段提取

3.1.2边预测

3.2 解码工作流

3.3 模型结构

3.3.1tokens表示

3.3.2 段提取器

3.3.3 边预测器

3.4 训练和推理

4 评估

4.1 数据集

4.2 实现细节

4.3 对比模型

4.4 主要结果

4.5 模型消融研究

4.6 性能分析

4.6.1重叠结构的影响

4.6.2间隔和跨度长度的影响

4.6.3运行速度分析

5 结论

Discontinuous Named Entity Recognition as Maximal Clique Discovery相关推荐

最新文章

热门文章