【ACL2020】Reasoning with Latent Structure Refinement for Document-Level Relation Extraction
1. 问题
- 句间关系
- 很多
- 约等于文档级关系抽取
- 文档级关系抽取
- 句子间关系多
- 生物医药领域尤其多
- 需求/困难
- 整合同一文档不同句子间的信息
- 处理句间实体复杂的交互
- 句子间关系多
2.相关工作
文档级别关系抽取
- 结论:
- 实体mention之间的交互促进推理过程(文档级关系抽取中)
- 因而使用MIL
- 实体mention之间的交互促进推理过程(文档级关系抽取中)
- MIL
- Verge2018,Jia2019
- 缺点:
* 无法捕捉丰富的非局部交互
- 使用结构信息获取更好的推理
- 优点:可以捕捉到非局部依赖
- 整合不同句子的信息
- 构建静态的文档级别图
- 来源:非结构化文本
- 依赖:规则和共指消解
- 语义信息
- co-references
- heuristics:启发式
- eg
- Peng2017:构建依赖图:句间,多元实体
- Sahu,2019:用共指消解扩展了Peng的图,构建了文档级别的图
- Christopoulou,2019利用结构信息基于一组启发式构建一个异构图,并使用一个特定于边的模型
- 结论:
句子内关系抽取
句子间关系抽取
- Peng:句间关系多,尤其是生物医药领域
- 生物医药领域
- l (Quirk and Poon, 2017;
- Gupta et al., 2018;
- Song et al., 2019)
3.本文方法
- 本文模型:LSR
- 构建隐式文档级别图
- 自动的
- 目的:加强句子间的关系推理
- 捕捉实体间的非局部交互
- 构建:
- 不依赖于规则和共指消解
- 将图结构视作隐式的变量,并以端到端的形式引入它
- 基于:结构化的attention
- 使用:矩阵树理论
- 可以:生成一个任务特定的依赖结构
- 进一步:迭代的细化策略:
- 目的:使得模型能够增量地聚合多条推理的相关信息
- 做到:基于上一次迭代,动态第构建隐式结构
- 组件
- node constructor
- encoder:文档中的每个句子编码表示-上下文的表示
- node:最短依赖路径的mention和tokens的向量表示作为node
- dynamic reasoner
- 生成结构:基于被提取的节点生成文档级结构
- 更新node表示:
- 基于隐式结构上的信息传递
- 迭代细化
- classifier
- 分类:节点最后的表达被用于计算分类的分数
- node constructor
- 构建隐式文档级别图
3.1 Node constructor
- encoder:文档中的每个句子编码表示
- node:最短依赖路径的mention和tokens的向量表示作为node
- mention node
- entity node
- meta dependency paths node(MDP)
- 所有mentions最短依赖路径的集合
- token–>node
3.1.1 context encoding
- 文档d,文档内句子did_idi
- 编码器:LSTM(BiLSTM)/Bert
- BiLSTM
- hji→=LSTMl(hj+1i←,γji)\overrightarrow{h_j^i}=LSTM_l(\overleftarrow{h_{j+1}^i},\gamma_j^i)hji=LSTMl(hj+1i,γji)
- hji←=LSTMl(hj−1i→,γji)\overleftarrow{h_j^i}=LSTM_l(\overrightarrow{h_{j-1}^i},\gamma_j^i)hji=LSTMl(hj−1i,γji)
- j-di中的第j个token
- γ:wordembedding\gamma:word embeddingγ:wordembedding
- hji=[hji←;hji→]h_j^i=[\overleftarrow{h_{j}^i};\overrightarrow{h_{j}^i}]hji=[hji;hji]
- BiLSTM
3.1.2 Node Extraction
- node:最短依赖路径的mention和tokens的向量表示作为node
- mention node
- entity node
- mentions的平均
- meta dependency paths node(MDP)
- 所有mentions最短依赖路径的集合
- token–>node
- 构建图
- Sahu:使用一个句子的依赖树中的所有节点
- Christopoulou:通过对句子的所有标记求平均来构建一个句子级别的节点
- 或者:使用mention之间的最短依赖路径上的tokens
- 这个广泛用于句子级关系抽取,因为他可以有效使用相关信息,忽视无关信息
3.2 Dynamic Reasoner
- structure induction
- 学习隐式的文档级图结构
- multi-hop reasoning
- 在图上推理
- 更新节点表示(基于信息传递)
- 迭代
- N blocks
- 为了迭代细化隐式的文档级图,为了更好的推理
3.2.1 Structure Induction
- 不依赖于规则和共指消解
- 将图结构视作隐式的变量,并以端到端的形式引入它
- 基于:结构化的attention
- 公式
- node:ui,uju_i,u_jui,uj上下文表示
- pair-wise unnormalized attention score
- sij=(tanh(Wpui))TWb(tanh(Wcuj))s_{ij}=(tanh(W_pu_i))^TW_b(tanh(W_cu_j))sij=(tanh(Wpui))TWb(tanh(Wcuj))
- 2个ff
- 1个bilinear transformation
- root scoresir=Wruis_i^r=W_ru_isir=Wrui–第i个节点被选作root的概率
- 边的权重Pij={0if i=jexp(sij)otherwiseP_{ij}= \begin{cases} 0& \text{if i=j}\\ exp(s_{ij})& \text{otherwise} \end{cases}Pij={0exp(sij)if i=jotherwise
- 拉普拉斯矩阵
- Lij={Σi′=1nPi′jif i=j−PijotherwiseL_{ij}=\begin{cases} \Sigma_{i'=1}^nP_{i'j} & \text{if i=j}\\ -P_{ij}&otherwise \end{cases}Lij={Σi′=1nPi′j−Pijif i=jotherwise
- variant: Lij^={exp(sir)if i=1Lijif i>1\hat{L_{ij}}=\begin{cases} exp(s_i^r)& \text{if i=1}\\ L_{ij}& \text{if i>1} \end{cases}Lij^={exp(sir)Lijif i=1if i>1
- sij=(tanh(Wpui))TWb(tanh(Wcuj))s_{ij}=(tanh(W_pu_i))^TW_b(tanh(W_cu_j))sij=(tanh(Wpui))TWb(tanh(Wcuj))
- marinal probability of the dependency edge:
- Aij=(1−δ1,j)Pij[L−1^]ij−(1−δi,1)Pij[L−1^]jiA_{ij}=(1-\delta_{1,j})P_{ij}[\hat{L^{-1}}]_{ij}-(1-\delta_{i,1})P_{ij}[\hat{L^{-1}}]_{ji}Aij=(1−δ1,j)Pij[L−1^]ij−(1−δi,1)Pij[L−1^]ji
- 输出给下一组件
3.2.2 Multi-hop Reasoning
- GCN
- dense connection
- 捕捉到更多结构信息
- 帮助训练更深的网络
- –获取更丰富的局部和非局部的信息
- uil=Relu(Σj=1nAijWluil−1+bl)u_i^l=Relu(\Sigma_{j=1}^nA_{ij}W^lu_i^{l-1}+b^l)uil=Relu(Σj=1nAijWluil−1+bl)
- dense connection
3.2.3 Iterative Refinement
- structured attention诱导的图结构不足
- 相对较浅
- 无法建模复杂的依赖
- 解决:在更新后的表示上细化图
- 堆叠N个动态reasoner
- 诱导N次图
- 早期:更多的是相邻的信息
- 迭代多了之后,结构获得了更丰富的非局部信息的交互,因而诱导模块能够生成包含更多信息的结构
- 堆叠N个动态reasoner
3.3 分类器
P(r∣ei,ej)=σ(eiTWeej+be)rP(r|e_i,e_j)=\sigma(e_i^TW_ee_j+b_e)_rP(r∣ei,ej)=σ(eiTWeej+be)r
4.结果
- 数据集:
- DocRED
- F1:59.05\
- CDR
- GDA
- DocRED
- DocRED结论
- 该模型可以更准确地发现句间关系
- 静态的基于文档图的模型不能够捕捉到复杂的交互
- LSR比动态的基于局部attention的模型能够得到更多信息的文档级结构,获得更好的推理
- 直接编码整个文档的模型不能够捕捉到句间关系
- 好于Bert:捕捉到了长期依赖,而没有使用上下文的模型
- 该模型可以更准确地发现句间关系
- CDR
- LSR 打不过:
- Spacy在生物领域很弱,所以不行
- 简化的LSR:去除MDP,使用全连接图
- 打不过Li2016b:因为他用了额外的无标签训练数据进行co-training
- 本文要是用了的话他也行(他自己说的)
- 打不过Li2016b:因为他用了额外的无标签训练数据进行co-training
- LSR 打不过:
- GDA:
- Christopoulou2019全连接图的变体:他的句间关系好于句内关系,因为他忽略了不同句子间的差异(当一个句子处理了)
4.6.1 Latent Structure Matter的有效性
- 相同block num下,效果最好,证明了有效
4.6.2 细化
- 第二次迭代时(2个block)最好,所以细化有效,但是太多次就会过拟合。
4.7 Ablation Study
- Structure Induction
- 去掉这个性能下降最多,且都是句间关系抽取性能下降的结果
- 隐式结构有用
4.8 Case Study
【ACL2020】Reasoning with Latent Structure Refinement for Document-Level Relation Extraction相关推荐
- 【NIPS2018】Reasoning with Graph Convolution Nets for Factual Visual Question Answering【事实视觉问答推理】
"Out of the box:Reasoning with Graph Convolution Nets for Factual Visual Question Answering&quo ...
- 【ACL2020】这8份Tutorial不可错过!包括:常识推理、多模态信息抽取、对话、解释性等...
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要7分钟 Follow小博主,每天更新前沿干货 自然语言处理领域顶级会议 ACL 2020 将于 7 月 5 日至 10 日在线上举行.本届 A ...
- 【ACL2020】百度11篇论文被国际自然语言处理顶级会议ACL 2020录用
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转自:百度AI 近日,国际自然语言处理领域顶级学术会议"国际计算语言学协 ...
- 【转】欧几里德结构数据(Euclidean Structure Data) 以及非欧几里德结构数据(Non-Euclidean Structure Data)
本文转载自:<学习geometric deep learning笔记系列>第一篇,Non-Euclidean Structure Data之我见 本文是笔者在学习Geometric dee ...
- 【ACL2020】香侬科技提出基于span prediction的共指消解模型
点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要11分钟 跟随小博主,每天进步一丢丢 来源:香侬科技 论文标题: Coreference Resolution as Query-based S ...
- 【译】潜在语义分析Latent Semantic Analysis (LSA)
目录 目录 概述 Tutorial LSA的工作原理 How Latent Semantic Analysis Works 实例A Small Example Part 1 - Creating th ...
- 【ACL2020】Relabel the Noise: Joint Extraction of Entities and Relations via Cooperative Multiagents
文章目录 1.本文问题 2.方法 3.用于 4. 结论 1.本文问题 解决问题: 去噪 shifted label distribution 普遍存在此问题,但大家都不解决,只着重于抛弃噪声实例 远程 ...
- 【论文精读】TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task
这篇文章是ACL2020上的文章,来德国研究中心的Christoph Alt. 文章主要研究的是Tacred的数据集合中的Dev和Test集的标注错误,并且做了标注错误类型的分组,做了对比试验验证这些 ...
- 【python】Algorithm
枚举法 递推 与枚举算法思想相比,递推算法能够通过已知的某个条件,利用特定的关系得出中间推论,然后逐步递推,直到得到结果为止.由此可见,递推算法要比枚举算法聪明,它不会尝试每种可能的方案. 在日常应用 ...
最新文章
- 关于内网linux系统如果安装nodejs,npm,express,mongodb,forever等
- C#检测电脑的一些设置通用类(经典推荐)
- 网站自动登录功能的设计[转]
- PaaS平台应用的12要素原则
- The difference between sleep(), wait(), and yield() in human terms.
- 【通知】2020年有三AI-CV夏季划升级,更多项目,更高难度,更加落地
- Rational Rose正逆向工程(类图转Java代码,Java代码转类图)
- C++代码片段(三)过滤可变模板参数中某些类型的变量
- NHibernate自定义集合类型(上):基本实现方式
- Laravel5.2之模型关联预加载
- 李炎恢的课程中心(JQUERY视频)
- 【经验教程】支付宝怎么充值手机话费?
- android自定义抽奖,Android 抽奖活动 (自定义view实现) 转盘
- 大胆预测,2019年最佳外置硬盘和便携式SSD非这四款莫属!
- Windows 11 有望支持苹果 M1 Mac?微软和高通的秘密协议即将到期
- calc(100% - 200px)调整大小
- 一、分布式关系型数据库 DRDS介绍
- 【论文笔记之 SN-Net】Interactive Speech and Noise Modeling for Speech Enhancement
- linux 基础及常用命令
- JZ28、JZ39、JZ40