Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling

Purpose
Enhanced BERT Baseline
- Encoder
- Binary Classifier
Adaptive Thresholding
Localized Context Pooling
Conclusion

Purpose

本文提出两种新的技术，分别为自适应阈值和局部上下文池化，解决多标签和多实体问题。自适应阈值利用一个可学习的阈值代替全局阈值，不需要对阈值进行调优，并且使阈值可以针对不同实体进行调整。局部上下文池化利用与当前实体相关的上下文增强实体嵌入，从预训练语言模型中获得实体级注意力，对于实体对中的两个实体，通过乘法融合注意力，获得对他们都重要的上下文。

通过结合以上两种技术，作者提出了一种简单有效的关系抽取模型ATLOP，充分利用预训练语言模型。

Enhanced BERT Baseline

Encoder

给定一个文档d=[xt]t=1ld=[x_t]_{t=1}^ld=[xt]t=1l，在每个实体提及的开始和结束插入" * "，接着使用预训练语言模型获得上下文嵌入：

H=[h1,h2,...,hl]=BERT([x1,x2,...,xl])H=[h_1,h_2,...,h_l]=BERT([x_1,x_2,...,x_l])H=[h1,h2,...,hl]=BERT([x1,x2,...,xl])

对于一个实体，使用logsumexp池化计算其嵌入为：

hei=log∑j=1Neiexp(hmji)h_{e_i}=log \sum_{j=1}^{N_{e_i}}exp(h_{m_j^i})hei=log∑j=1Neiexp(hmji)

其中mjim_j^imji是实体 eie_iei 的第 jjj 次提及。

Binary Classifier

给定实体对 (hes,heo)(h_{e_s},h_{e_o})(hes,heo) 的嵌入，将其映射到隐藏状态 zzz，接着通过bilinear函数和激活函数计算关系 rrr 的概率：

zs=tanh(Wshes)z_s = tanh(W_s h_{e_s})zs=tanh(Wshes)

zo=tanh(Woheo)z_o = tanh(W_o h_{e_o})zo=tanh(Woheo)

P(r∣es,eo)=σ(zsTWrzo+br)P(r|e_s,e_o) = \sigma (z_s^T W_rz_o+b_r)P(r∣es,eo)=σ(zsTWrzo+br)

为减少bilinear分类器的参数量，本文使用了bilinear组，将嵌入维度分成k个相同大小的组，在组内使用bilinear。

[zs1,...,zsk]=zs[z_s^1,...,z_s^k] = z_s[zs1,...,zsk]=zs

[zo1,...,zok]=zo[z_o^1,...,z_o^k] = z_o[zo1,...,zok]=zo

P(r∣es,eo)=σ(∑i=1kzsiTWrizoi+br)P(r|e_s,e_o) = \sigma (\sum_{i=1}^k {z_s^i}^T W_r^iz_o^i+b_r)P(r∣es,eo)=σ(∑i=1kzsiTWrizoi+br)

可将参数从 d2d^2d2 减少到 d2k\frac {d^2}{k}kd2。使用二元交叉熵损失进行训练，微调一个全局阈值，使得F1分数最高。

Adaptive Thresholding

作者将实体对的关系分为两个子集：正类PTP_TPT和负类NTN_TNT。

正类是存在于实体对中的关系，若实体对没有任何关系，PTP_TPT是空集。

负类是不存在于实体对中的关系，若实体对没有任何关系，NT=RN_T=RNT=R。

若一个实体对被正确分类，正类的分数应该比阈值高，负类的分数应该比阈值低。引入阈值类TH，测试时，返回比TH分数高的类作为正类，若该类不存在则返回NA。

阈值类TH学习实体相关的阈值，消除了阈值调优的需要。

使用标准分类交叉熵损失作为自适应阈值损失，分为两个部分：

L1=−∑r∈PTlog(exp(logitr)∑r′∈Pr∪{TH}exp(logitr′))L_{1} = -\sum_{r \in P_T}log(\frac{exp(logit_r)}{\sum_{r'\in P_r \cup \{TH\}}exp(logit_{r'})})L1=−∑r∈PTlog(∑r′∈Pr∪{TH}exp(logitr′)exp(logitr))

L2=−log(exp(logitTH)∑r′∈NT∪{TH}exp(logitr′))L_2=-log(\frac{exp(logit_{TH})}{\sum_{r'\in N_T \cup \{TH\}}exp(logit_{r'})})L2=−log(∑r′∈NT∪{TH}exp(logitr′)exp(logitTH))

L=L1+L2L = L_1+L_2L=L1+L2

L1L_1L1 表示正类和TH类，使得所有正类的分数都比TH类高；L2L_2L2 包括负类和TH类，使得所有负类的分数都比TH类低。两者求和得到总损失。如图2所示。

Localized Context Pooling

logsumexp池化累积了一个实体所有提及的嵌入，为每个实体产生一个嵌入向量。然而，对于一个实体对，并非所有提及的上下文都相关。

因此作者提出了本地上下文池化，通过附加一个与实体对相关的本地上下文嵌入来增强实体对的嵌入，考虑直接使用预训练模型的注意力头进行本地上下文池化。

给定一个预训练的多头注意力矩阵A∈RH×l×lA\in R^{H \times l \times l}A∈RH×l×l，AijkA_{ijk}Aijk 表示第 i 个注意力头中从 j 到 k 的注意力，首先将从" * " 开始的注意力作为提及级注意力，接着平均提及上的注意力，获得实体级注意力 AiE∈RH×lA_i^E \in R^{H \times l}AiE∈RH×l，表示从第 i 个实体到所有token的注意力。通过将实体对的实体级注意力相乘定位与实体都相关的本地上下文，获得本地上下文嵌入：

A(s,o)=AsE⋅AoEA^{(s,o)}=A_s^E \cdot A_o^EA(s,o)=AsE⋅AoE

q(s,o)=∑i=1HAi(s,o)q^{(s,o)}=\sum_{i=1}^H A_i^{(s,o)}q(s,o)=∑i=1HAi(s,o)

a(s,o)=q(s,o)/1Tq(s,o)a^{(s,o)}=q^{(s,o)}/1^Tq^{(s,o)}a(s,o)=q(s,o)/1Tq(s,o)

c(s,o)=HTa(s,o)c^{(s,o)}=H^Ta^{(s,o)}c(s,o)=HTa(s,o)

本地上下文嵌入接着被融入全局池化实体嵌入中，获得针对不同实体对的不同实体嵌入：

zs(s,o)=tanh(Wshes+Wc1c(s,o))z_s^{(s,o)}=tanh(W_s h_{e_s}+W_{c_1}c^{(s,o)})zs(s,o)=tanh(Wshes+Wc1c(s,o))

zo(s,o)=tanh(Woheo+Wc2c(s,o))z_o^{(s,o)}=tanh(W_o h_{e_o}+W_{c_2}c^{(s,o)})zo(s,o)=tanh(Woheo+Wc2c(s,o))

其中 Wc1,Wc2W_{c_1},W_{c_2}Wc1,Wc2 是模型参数。

Conclusion

本文中提出了文档级关系抽取ATLOP模型，采用了自适应阈值和本地上下文池化两种新的技术。自适应阈值将全局阈值替换为一个可学习的阈值类，能够为每个实体对确定最佳阈值。局部上下文池化利用预先训练好的注意力头定位与实体对相关的上下文，有助于缓解多实体问题。

Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling 阅读笔记相关推荐

Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling
http://arxiv.org/abs/2010.11304 用自适应阈值和局部上下文池化技术进行文档级关系抽取任务与句子级关系抽取相比,文档级关系抽取(RE)提出了新的挑战.一个文档 ...
AAAI-21-DocRE-Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Po
Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling 目录 Docum ...
文档级关系抽取：QIUXP：DORE: Document Ordered Relation Extraction based on Generative Framework
DORE: Document Ordered Relation Extraction based on Generative Framework 文档级关系抽取是从整篇文档中抽取出三元组.更难,但也很 ...
Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation
作者: Qingyu Tan∗1,2 Ruidan He†1 Lidong Bing1 Hwee Tou Ng2 单位:1DAMO Academy, Alibaba Group:2Department ...
10.Unsupervised aspect term extraction with b-lstm crf using automatically labelled datasets阅读笔记
Unsupervised aspect term extraction with b-lstm & crf using automatically labelled datasets 一.科学 ...
20-Joint entity and relation extraction based on a hybrid neural network(LSTM-ED+CNN),考虑长距离的实体标签之间的关
文章目录 abstract 1.introduction 2.相关工作 2.1. Named entity recognition 2.2. Relation classiﬁcation 2.3 联合 ...
关系抽取论文总结（relation extraction）不断更新
2000 1.Miller, Scott, et al. "A novel use of statistical parsing to extract information from te ...
文献阅读课12-Fine-Grained Temporal Relation Extraction(19ACL，时间关系，时间持续时间，数据集，语义框架，常识）
文章目录 abstract 1.Introduction 2 背景 3.数据收集 4.Model 5.实验 6.result 7 Model Analysis and Timelines Vashis ...
论文阅读课2-Inter-sentence Relation Extraction with Document-level （GCNN，句间关系抽取，ACL2019
文章目录 abstract 1.introduction 2.model 2.1输入层 2.2构造图 2.3 GCNN层 2.4MIL-based Relation Classification 3. ...

Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling 阅读笔记