本篇博文整理一下IJCAI2022的一篇开放域神经信息抽取的综述(OpenIE),先放地址,
paper:https://www.ijcai.org/proceedings/2022/793


A Survey on Neural Open Information Extraction: Current Status and Future Directions
开放信息抽取很适合于许多开放世界的自然语言理解场景,如自动知识库构建、开放领域的问题回答和显式推理。随着深度学习技术的快速发展,许多神经OpenIE架构已经被提出,并实现了相当大的性能提高。

Open Information Extraction (OpenIE)可以定义为以n元关系元组的形式提取事实,即(arg1, predicate, arg2, . . . , argn),而不依赖于预先定义的 ontology schema。如上图是一个抽取例子,面向开放式的文本,抽取得到的元组都由一个predicate和多个arguments组成,而不需要任何特定关系的训练数据。

在深度学习之前,传统的OpenIE系统要么是统计学的,要么是基于规则的,并且严重依赖于语法模式的分析。随着深度学习技术的兴起,信息抽取领域也出现了更多的可能。

神经OpenIE模型可以分为Tagging-based Models和Generative models,如上图。

Tagging-based Models
基于标记的模型将OpenIE表示为一个序列标记任务。即,给定一组标签,每个标记表示一个标记或一个标记的角色(例如参数、谓词),模型学习每个标记的标签或基于句子的跨度的概率分布,最后OpenIE系统根据预测的标签输出元组。主要有三种实现思路:

  • 基于标记的模型(token-based)。预测每个token属不属于argument或predicate。一个常见的标记方案是BIO for Beginning, Inside, and Out。如图2(a)给出了two-token subject和one-token predicate的示例,其中“O”标记该token不是argument或predicate的一部分。
  • 基于跨度的模型(span-based)。直接预测token跨度是argument还是predicate。图2(b)给出了一个示例span(h1;h2)。通常,所有可能的span都要从输入句子中枚举并预测其类别。
  • 基于图的模型(graph-based models)。构建一个Graph来识别三元组,其中节点为token spans,以及表示属于相同事实的连接节点的边,通过挖掘图中的最大团系来提取元组。如上图c。

Generative Models
生成模型将OpenIE表示为一个序列生成问题,它读取一个句子并输出一个序列的提取。

  • Generate Extractions。生成模型架构通常包括:一个要给出句子上下文的分布式表示的编码器,和一个基于句子上下文和目前生成的序列来顺序生成的解码器。如上图d。
  • Generate Adversarial Examples。该模型的目的是获得一个生成器,它可以生成与黄金注释非常相似的元组,以混淆鉴别器的判断。如上图e。

Model Comparison
与生成Generative模型相比,大多数基于标记Tagging的模型是非自回归的。这种基本的差异导致了四个典型的模型差异:

  • 1)提取依赖性。自回归模型基于之前的预测结果去预测下一个元组,导致元组之间产生不必要的序列依赖性,这种依赖关系可能会导致多个步骤之间的错误传播。不过,这种依赖性也可以利用事实之间的相关性,以实现更好的推理。
  • 2)提取的真实性。基于标记的模型不像生成模型那么灵活,因此提取的元组可能是不连贯的。
  • 3)提取的可靠性。另一方面,生成模型的存在性也带来了不准确提取的风险:可能会产生在原始文本中没有表达出来的毫无意义的事实。
  • 4)提取速度。自回归模型是 step by step逐步地输出结果,而基于标记的方法可以利用GPU并行性同时输出结果。因此Tagging推理速度大约比生成模型模型快35倍。

Performance Evaluation
神经OpenIE系统在两个流行的OIE2016和CaRB数据集上的性能。

Challenges and Future Directions
存在的挑战主要有,

  • Evaluation。神经OpenIE仍然缺乏大规模、高质量的训练数据。
  • Defnition。普通OpenIE不适用于开放域信息提取,然而大多数现有的研究都是在新闻、百科全书或网页上评估他们的解决方案,因此需要进行覆盖更多领域的基准测试。
  • Application。与Closed IE相比,从OpenIE中提取的东西更难以使用。很有可能有多个谓词引用同一语义关系,或参数引用同一实体。如(Einstein; was born in; Ulm), (Ulm; is the birthplace of ; Einstein)。

未来的方向主要有,

  • More open。新的源可以是文档级文本、多语言语料库或多模态数据。
  • More focused。经典的OpenIE需要从源文本中提取所有事实。然而在许多情况下,我们只对与某些主题/实体相关的事实感兴趣,而后者可以是预先设定的。因此,抽取操作需要更加集中,并且更容易用于下游任务。
  • More unifed。OpenIE可以被视为最通用的IE任务,如实体识别、关系理解、元素匹配等。但目前没有一个统一IE任务之间的通用模型。

开放域抽取的特点是不限定关系类别、不限定目标文本,难点在于如何获取训练语料、如何获取实体关系类别、如何针对不同类型目标文本抽取关系。

具体OpenIE知识库也有多个重要的版本或系统的提出。

KnowItAll
KnowItAll是2004年由华盛顿大学发布,它主要基于可扩展的本体和少量的通用规则模板种子,为预定义类别和关系生成提取模板。主要包括以下三个步骤:

  • 提取器(Extractor),利用规则如Marti Hears上下位抽取得到实体和实体关系。
  • 搜索引擎接口(Search Engine Interface)。利用搜索引擎进行扩充,具体来说,会拿特定类别提取规则中的关键词请求搜索引擎,然后解析返回的结果,进行词性标注和名词短语识别,再依照第一步的规则进行匹配和规则约束提取。
  • 以及概率评估器(Probabilistic Assessment)。对抽取得到的三元组进行过滤。

TextRunner
和KnowItAll类似,也分为三个步骤:

  • 自监督学习器(Self-Supervised Learner)。它主要使用非词汇化词性和NP短语特征作为特征,并构造训练数据集,训练朴素贝叶斯模型或线性CRF与马尔可夫网络进行训练来判断给定三元组是否可信。
  • 单步抽取器(Single-Pass Extractor)。对于输入的一句话,其进行词性标注和名词短语识别,并以短语之间的词语作为关系表示。再使用分类器进行分类来判别三元组是否可信。
  • 基于冗余的评估器(Redundancy-Based Assessor)。由于直接以短语之间的词语作为关系表示,因此需要对关系短语进行归一化,如去除不必要的修饰词、副词等。

Reverb
TextRunner的归一化方法容易得到一些不可理解的关系短语,因此Reverb提出基于词性标注的关系抽取方式。

  • 使用OpenNLP对原始句子进行词性标注和组块识别,再完成关系抽取和论元抽取。
  • 设计句法约束和词法约束。这种细化使模型能够轻松处理包含多个动词的关系短语,并且满足短语构成的连续性。

OLLIE
Reverb的缺点在于其只能处理有限的句子结构,并将关系限制在动词模式,忽略了句子的上下文信息。因此OLLIE试图扩大关系短语的句法范围以覆盖更多的关系表达和上下文信息。

  • 关系模式的获取。对包含三元组的句子进行依存关系分析、标注、句法检测、泛化得到一些关系模式。
  • 基于关系模式的抽取。然后基于构建好开放模式实施提取。

神经开放域信息抽取OpenIE相关推荐

  1. 开箱即用的百度开放域信息抽取的统一框架UIE

    前言 在日常工作中,从文本中抽取各类信息是常见的基本任务,今天要给大家介绍的是百度开源的UIE框架,这一框架在实体抽取.关系抽取.事件抽取.情感分析等任务上都有着良好的泛化效果.其在医疗.金融等领域都 ...

  2. 论文阅读:A Survey of Open Domain Event Extraction 综述:开放域事件抽取

    A Survey of Open Domain Event Extraction 综述:开放域事件抽取 目录 A Survey of Open Domain Event Extraction 综述:开 ...

  3. NLP事件抽取综述(上中下):中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等类型

    https://github.com/xiaoqian19940510/Event-Extraction 近年来事件抽取方法总结,包括中文事件抽取.开放域事件抽取.事件数据生成.跨语言事件抽取.小样本 ...

  4. PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练

    相关文章: 1.快递单中抽取关键信息[一]----基于BiGRU+CR+预训练的词向量优化 2.快递单信息抽取[二]基于ERNIE1.0至ErnieGram + CRF预训练模型 3.快递单信息抽取[ ...

  5. 【CIPS 2016】(8-10章)信息抽取、情感分析自动文摘 (研究进展、现状趋势)

    CIPS 2016 笔记整理 <中文信息处理发展报告(2016)>是中国中文信息学会召集专家对本领域学科方 向和前沿技术的一次梳理,官方定位是深度科普,旨在向政府.企业.媒体等对中文 信息 ...

  6. 面向知识图谱的信息抽取

    面向知识图谱的信息抽取 人工智能技术与咨询 点击蓝字 · 关注我们 来源:< 数据挖掘,> ,作者赵海霞等 关键词: 知识图谱:信息抽取:实体抽取:关系抽取:开放域 摘要: 摘要: 随着大 ...

  7. 必读!信息抽取(Information Extraction)【关系抽取】

    来源: AINLPer 微信公众号(每日给你好看-) 编辑: ShuYini 校稿: ShuYini 时间: 2020-08-11 引言     信息抽取(information extraction ...

  8. ACL2022 | 面向中文真实搜索场景的开放域文档视觉问答数据集

    每天给你送来NLP技术干货! 论文名称:DuReadervis: A Chinese Dataset for Open-domain Document Visual Question Answerin ...

  9. 开放信息抽取(OIE)系统(四)-- 第三代开放信息抽取系统(基于子句, clause-based, 句子重组、删减)

    开放信息抽取(OIE)系统(四)-- 第三代开放信息抽取系统(基于子句, clause-based, 句子重组.删减) 一.第三代开放信息抽取系统背景 ​ 基于子句的开放信息抽取系统与之前的信息抽取方 ...

最新文章

  1. 鸿蒙霸榜GitHub,从最初的Plan B到“取代Android”?
  2. flask小项目打开教学
  3. 李飞飞、邓中翰当选美国国家工程院院士
  4. XML Parser(Tinyxml)的使用
  5. C++ 学习之旅(7)——指针pointer
  6. Arcgis Javascript那些事儿(一)--Arcgis server发布feature access服务
  7. Android socketnetty实现
  8. 10.6 全源(All pairs)负权Johnson算法
  9. android mac地址 伪装,教你伪装MAC地址
  10. Java优秀员工自我评价_优秀员工自我评价
  11. R语言差异检验:非参数检验
  12. Code3 将文件转换到byte数组中
  13. jQuery源码分析系列目录
  14. 5月30日第壹简报,星期一,农历五月初一
  15. 做淘宝页面前的基础准备
  16. java面试(JVM)
  17. XShell免费版的安装配置教程以及使用教程
  18. 持久记录精彩时刻,汉印CP4000体验
  19. 计算机课拔线头检讨书,实验室检讨书.doc
  20. 支付宝 App 架构的原理与实战

热门文章

  1. 网络编程入门(JavaSE)
  2. CVAT学习笔记 - 连续标注
  3. Maven自定义Archetype项目模板
  4. Bailian4006 小兔子捡金币【模拟】
  5. linux安装软件命令1003无标题,Linux下软件安装
  6. 利用IDL读取HDF5文件
  7. Office Component Enterprise Toolkit for .NET Crack
  8. 使用RTL-SDR和Matlab Simulink玩转软件无线电(五)
  9. 华硕无畏Pro电脑Win10系统崩溃怎么重装系统?
  10. matlab中link函数在哪里,[分享]Matlab工具箱Excel Link之简易使用说明