笔记整理:吕欣泽,南京大学计算机科学与技术系,硕士研究生。


论文连接:https://arxiv.org/pdf/1810.13083.pdf

发表会议:NAACL 2019

摘要

大多数现代信息提取(IE)系统都是作为顺序标记器实现的,并且只模拟本地依赖项。然而,非顺序的上下文是改进预测效果的有价值的信息来源。本文介绍GraphIE,一个在图上运行的信息抽取框架。该算法通过图形卷积网络在连接的节点之间传播信息,利用来改进单词级别的预测从,而生成更丰富的表示。本文评估了三个不同的任务:文本,社交媒体和视觉信息提取,结果一致地显示GraphIE 优于最先进的信息抽取模型。

模型介绍

1.     概览

最现代的信息提取(IE)系统通常被实现为顺序标记器。这样的模型有效地捕捉了在上下文中的本地关系,它们利用非本地和非顺序依赖的能力有限。然而,在许多应用程序中,这种依赖性可以大大减少标记的模糊性,从而提高整体提取性能。例如,从文档中提取实体时,各种类型的非本地情境信息,如共同引用和相同的提及可能提供有价值的线索。参见下图,其中非本地关系对于区分第二次提及的实体类型至关重要:华盛顿(即人,组织或地点)。

本文提出了GraphIE,这是一个通过自动学习输入空间中本地和非本地依赖关系之间的交互来改进预测的框架。它将图网络和编码器-解码器集成在一起,构建了序列标记的体系结构。模型如下。

2.     编码

一个句子表示为,每一个词被表示为一个向量,编码公式为如下,其中代表隐态,0 代表初始隐态为 0 向量,代表编码器的参数。

图卷积网络过程为如下,其中 是要学习的权重,是节点 v_i 的度,组合得到第l层的表示

3.     解码

解码时,隐态的获得如下,其中是图卷积网络的输出。

标记时使用CRF:

标记时使用CRF:

实验结果分析

1.     文本信息抽取

使用CoNLL-2003 和CHEMDNER 数据集,实验结果如下。

2.     社交媒体信息抽取

从Twitter语料库里构造了两个数据集EDUCATION和JOB。实验结果如下。

3.     视觉信息抽取

数据集来自病人病历,由于隐私原因无法公开。实验结果如下:


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | GraphIE:基于图的信息抽取框架相关推荐

  1. 论文浅尝 | GraphSAINT—基于图采样的归纳学习方法

    论文笔记整理:杨海宏,浙江大学博士生,研究方向为开放世界下的多语言知识问答. 1. 简介 受显存的因素限制,应用图神经网络于大规模图学习任务上面临"邻居爆炸(Neighbor Explosi ...

  2. 论文浅尝 - ICML2020 | 基于子图推理的归纳式关系预测

    论文笔记整理:陈名杨,浙江大学在读博士生,主要研究方向为知识图谱表示学习. 论文来源:ICML 2020 Introduction 当前在知识图谱上(KnowledgeGraph,KG)进行关系预测的 ...

  3. 论文浅尝 - AAAI2021 | 基于对比学习的三元组生成式抽取方法

    作者 | 叶宏彬,浙江大学博士研究生,研究方向:知识图谱.自然语言处理 接收会议 | AAAI2021 论文链接 | https://arxiv.org/pdf/2009.06207.pdf 摘要 在 ...

  4. 论文浅尝 | 为基于知识库的问答构建形式查询生成

    论文笔记整理:刘晓臻,东南大学计算机科学与工程学院本科生. Citation: H.Zafar, G. Napolitano, and J. Lehmann. Formal query generat ...

  5. 论文浅尝 - IJCAI2022 | 基于自适应虚词增强的小样本逆关系分类

    论文作者:窦春柳,天津大学,研究方向:知识图谱 论文链接:http://arxiv.org/abs/2204.12111 代码地址:https://github.com/DOU123321/FAEA- ...

  6. 论文浅尝-综述 | 基于强化学习的知识图谱综述

    转载公众号 | 人工智能前沿讲习 论文来源:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20211264 摘要:知识图谱是一种用图结构建模事物及事物 ...

  7. 论文浅尝 | ICLR 2020 - 图神经网络的预训练策略

    论文笔记整理:杨帆,浙江大学计算机学院. 动机 现有的用于图结构的预训练方法要么只关注node-level,导致在图表示空间没有区分度,要么只关注graph-level,导致在节点表示空间没有区分度. ...

  8. 论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络

    论文笔记整理:吴锐,东南大学计算机学院硕士. 来源:ICLR 2020 链接:https://arxiv.org/pdf/1911.03082.pdf 动机 目前针对于GCN的研究大多数都关注在学习无 ...

  9. 论文浅尝 - ACL2022 | 基于多语言语义解耦表示的跨语言迁移方法实现多语言阅读理解...

    论文作者:吴林娟,天津大学,研究方向为自然语言理解 论文链接:http://arxiv.org/abs/2204.00996 代码地址:https://github.com/wulinjuan/SSD ...

最新文章

  1. 在hibernate中使用c3p0数据源
  2. 不用L约束又不会梯度消失的GAN,了解一下?
  3. android通过Canvas和Paint截取无锯齿圆形图片
  4. springboot+mybatis+druid+atomikos 处理分布式事务
  5. Latex给表格加脚注
  6. QDockWidget增加边框
  7. PS实用小技巧--修改图片上的文字
  8. Bit-M Accelerator全新上线
  9. JavaEE企业级实战项目 智牛股第七天 权限与网关的搭建
  10. JDK中java.exe,javadoc.exe,jdb.exe,javaprof.exe分别是什么,有什么作用?
  11. 搜集源码之github搜索语法,网盘搜索,搜索引擎等
  12. 海龙科技荣获2011年IP-Guard企业信息安全监管系统深圳地区最高白金代理商
  13. 南尼U盘修复——坑die专属
  14. 双折射晶体偏振干涉效应
  15. 用python发微博
  16. STM32——FSMC(灵活的静态存储器控制器)驱动TFTLCD液晶屏
  17. 四轮两驱小车(一):STM32驱动AS4950
  18. python在水文领域中的应用_python在水利工程或者水文方向上有什么案例可以学习一下么?或者还要学什么库。?...
  19. ofd格式文档和pdf的区别
  20. 助力查处非法占地现象 | 湖北某审计部门借助Bigemap开展自然资源资产审计工作

热门文章

  1. CAN总线很难吗?CAN总线看不懂是不可能的!
  2. 2019 高考填报志愿建议
  3. 每日一题(50)—— 各类型与零值的比较
  4. mysql sqlserver分页_SqlServer、MySql万能分页代码
  5. 数组的合并和升序排列_leetcode 33 搜索旋转排序数组
  6. 【Pytorch神经网络理论篇】 37 常用文本处理工具:spaCy库+torchtext库
  7. 笔记本AutoCAD启动时闪退怎么办_戴尔笔记本电脑开不了机如何解决【解决方法】...
  8. 二、bootstrap4基础(flex布局)
  9. Web框架——Flask系列之Flask-SQLAlchemy数据库的基本操作(九)
  10. LeetCode MySQL 1661. 每台机器的进程平均运行时间