Dynamically Fused Graph Network for Multi-hop Reasoning (ACL 2019)阅读笔记

动机:

single-hop QA 任务无法测试潜在模型的深度推理能力。

1.现有的工作从输入段中构建实体图,并利用GNN对该实体图执行信息融合;现有的所有工作是在静态图上执行GNN,这是一种隐式推理。

2.之前的工作将文本信息汇集成实体图,选择实体图中的某一个实体作为答案,然而在现实中,答案并不总是为所提取得实体图中的一个实体。这样的方法很难直接运用到open-domain 的QA 任务中

贡献:

1.本文基于query和document中的entity mention构建动态实体图。

2.本文提出一个信息融合的过程。该过程不仅可以将信息从document 传递到图的实体中,还可以将信息从实体图中反向传播回到document 中。

模型:

作者提出了一个dynamically fused graph network (DFGN)。该模型分为五个部分:段落选择子网络, 实体图构建模块, 编码层, 多跳推理融合块 和答案预测层。

1. 段落选择子网络

该子网络由一个预训练好的BERT模型,上层再接一个分类层。该子网络的输入为问题和某一段落,输出一个评分。该评分表示该段落含有至少一个support sentence的概率。在这篇论文中,主要计算出的评分大于0.1,就认为该段落为问题相关段落。最终问题Q,和筛选后的段落C.

2. 构建实体图

  • 利用现成的命名实体工具去提取实体,作为图的节点。抽取出的实体数为N。节点间边的构成按照以下的规则:
  1. 对于同一个句子中同时出现的实体间建立边的连接。
  2. 如果同一实体在Context中出现多次,则他们直接有边的连接。eg. 如“美利坚合众国”这个实体可能在文章中被多次提及,每次出现则图中会新建一个节点,这些节点直接都是互相连接的。
  3. 文章标题中出现的实体与其对应正文中的所有实体都有连接。

3. 对query 和 contex 进行编码

  • 首先将Q 和C 拼接在一起,共同输入到预训练好的BERT模型,分别得到问题中每个token的表示和context中每个token 表示.
  • 再将Q 和 C共同输入到一个Bi-attention中(这里指的是C2Q,和Q2C),这样做可以实现query和context 间信息的交互, 最终得到query 的向量表示和context 的向量表示。此时. 新的维度小于BERT的输出维度

4.用融合块推理.

该部分的输入为 和所构建的实体图

该模块主要执行以下流程:通过计算document tokens 中的实体向量实现信息从tokens 向图中的实体结点传递; 在实体图间执行信息传播; 从实体图向文本tokens 传播信息;

(1) Document to Graph Flow. 目的是将实体中的多个token 向量压缩成一个向量.

作者的做法是:利用max-pooling 和mean-pooling 将多个token向量压缩成一个,并将这两个压缩后的向量拼接起来,构成维度为的xiang

对于第t层的fusion block, 记输入的context为, 得到的实体表示为,为一个样本允许的最大实体数。(超过的被都截断)

(2) Dynamic Graph Attention.

  • 计算query 和实体图中每个实体的重要性(注意力)(the more relevant to the query, the neighbor nodes receive more information from nearby, 与query相关性越大的节点,得到的信息越多)

代表每个实体与query 的相关性

  • 标准的图注意力机制算法

  • 根据实体i的邻居更新实体i的节点表示

其中为实体i的邻居集合

利用上述步骤实现信息在实体图之间传播,得到更新后的实体表示.

(3) Updating Query.

在每一层Fusion Block结束后,还会使用新的实体表示通过Bi-Attention来更新Query的表示。

(4) Graph to Document Flow.

将该层输入的Context的表示  中的每个token与其对应的实体的表示拼接然后送入LSTM

(5)Prediction:

使用一个级联结构依次预测1.support evidence 2. start positioin 3 end positing 4 answer type.

其中,为四个层层堆叠的同构LSTM

最终的目标函数为四个交叉熵损失函数:

IDEA

1. 仅使用识别出的命名实体作为entity 存在局限性,因为在现实场景,回答问题并不总是以命名实体为驱动的。总的来说,使用实体作为图的节点是不完备的。

2. 在答案预测部分,四个级联的结构存在不合理性。比如,先预测答案类型再预测start 和end更为合理点。

部分内容参照这位大佬,感谢!

Dynamically Fused Graph Network for Multi-hop Reasoning相关推荐

  1. Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection

    Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection 一,Overview 二,文本组件预测: ①首先每 ...

  2. Hierarchical Graph Network for Multi-hop Question Answering 论文笔记

    Hierarchical Graph Network for Multi-hop Question Answering 论文笔记 2020 EMNLP,Microsoft 365, 这篇文章所提出的层 ...

  3. Lightweight Augmented Graph Network Hashing for Scalable Image Retrieval

    Lightweight Augmented Graph Network Hashing for Scalable Image Retrieval 1 Introduction 哈希编码旨在将高维数据投 ...

  4. Bipartite graph/network学习

    Bipartite graph/network翻译过来就是:二分图. 维基百科中对二分图的介绍为:二分图是一类图(G,E),其中G是顶点的集合,E为边的集合,并且G可以分成两个不相交的集合U和V,E中 ...

  5. DRRG:Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection:代码解读(textnet)

    前言 期待着期待着,DRRG的代码解读还没有.这是要等死我啊,唉,没办法,没人写就自己摸索吧.没错,我又来吹牛了.全网第一篇DRRG代码解读来了,万事不求人,自己动手丰衣足食,今天和大家一起学习DRR ...

  6. Module-based visualization of large-scale graph network data【论文阅读】

    基于模块化的大规模图网络数据可视化(2016) 关键词 网络可视化(Network visualization) 模块分组(Module grouping) 社区检测(Community detect ...

  7. 当GNN遇见NLP(九):Psycholinguistic Tripartite Graph Network for Personality Detection,ACL2021

    目录 Introduction Approach Notations Model Graph Initialization Graph Learning Merge & Classificat ...

  8. 视觉理解论文系列(二)Heterogeneous Graph Learning for Visual Commonsense Reasoning

    背景 本篇的工作来自中山大学梁晓丹组,论文被NeurIPS 2019接收.论文介绍到,视觉语言任务(visual-language task)的解决方案粗略地分成两大类型,一种是强大的端到端结构(en ...

  9. 论文阅读笔记《DPGN: Distribution Propagation Graph Network for Few-shot Learning》

    小样本学习&元学习经典论文整理||持续更新 核心思想   本文提出一种基于图神经网络的小样本学习算法(DPGN).先前基于图神经网络的小样本算法通常将每个样本当作一个结点,然后通过结点之间的关 ...

最新文章

  1. JAVA实现 springMVC方式的微信接入、实现消息自动回复
  2. 15-数据结构探险系列-图篇
  3. 中文输入法切换ubuntu_切换到 Linux 工作,体验暴增 100 倍!
  4. 限时抢订!价值4800元TechNet Plus赠阅一年!今天己到哈~~~
  5. 【安全漏洞】Cisco命令注入漏洞CVE-2021-1414分析
  6. 【Java NIO】一文了解NIO
  7. VM Ware 虚拟机centos 时间与本地时间不一致
  8. 微软 Exchange Autodiscover 协议存bug,数十万域凭据可遭泄露
  9. 带透明png转换成c数组
  10. bootstrap16-上下文表格布局
  11. C语言函数调用之数组与指针
  12. ubuntu中文智能拼音输入法配置
  13. 路由器配置 校园网账号独立登录 DHCP关闭
  14. A cycle was detected in the build path of project 'core'. The cycle consists of projects {core, sms}
  15. 【笔试题1】按输入的两个数进行幂级数求和,如s=2的0次方+2的一次方+2的n次方,编码实现
  16. mac 防止 下载 睡眠_如何暂时防止Mac进入睡眠状态
  17. PhotoshopCS6-艺术照片处理技法精粹-05-除斑驳纹效果
  18. 小型超市库存与销售管理系统(C语言课设)2021-04-24
  19. macbook pro 13寸 如何激活1920*1200 HIDPI 使用SwitchResX工具修改,详细教程
  20. Linux文本编辑器---vim详解

热门文章

  1. python爬取斗鱼_python selenium爬取斗鱼所有直播房间信息过程详解
  2. java swt gridlayout_关于SWT中的GridLayout布局方式
  3. VMware安装centos7,centos安装jdk,tomcat,mysql5.7,nginx,redis,ftp,日志分割
  4. SQL高级语言(二)
  5. 十问旷视印奇、唐文斌:AI公司步入「深水区」,友商其实不是友商-1
  6. Springboot项目访问路径
  7. 特征选择 | MATLAB实现特征变量相关性分析(Pearson相关系数,Kendall相关系数和Spearman相关系数)
  8. 怎样将window上的文件传输到虚拟机(vm上的linux系统)
  9. 怎么在计算机应用程序延时启动,Window 7 如何设置自动重启、自动关机、延时启动程序、开机恢复注册表启动项为初始值等批处理操作?...
  10. javac 和 javap工具详解