来源: AINLPer
微信公众号(每日更新…
编辑: ShuYini
校稿: ShuYini
时间: 2020-08-12

本文参考文献批量下载:关注 AINLPer 回复 EE001

引言

信息抽取(information extraction),简称IE,即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。信息抽取主要包括三个子任务:关系抽取、命名实体识别、事件抽取。
 在上一篇文章必看!一文了解信息抽取(IE)【命名实体识别NER】中主要介绍了命名实体识别研究的难点命名实体识别的研究进展命名实体识别研究热点命名实体识别常用的数据集及评价指标四部分内容,感兴趣的小伙伴可以读一下。那么本文主要为大家介绍事件抽取的相关内容

1、事件抽取介绍

事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取在网络舆情监控、突发事件告警、情报收集领域 有着重要应用。网络舆情变化通常是由某些热点社会事件引发的,事件抽取技术可以在第一时间发现这些热点事件,从而为预测网络舆情变化提供帮助。

2、事件抽取分类

事件抽取任务总体可以分为两个大类元事件抽取主题事件抽取元事件表示一个动作的发生或状态的变化,往往由动词驱动,也可以由能表示动作的名词等其他词性的词来触发,它包括参与该动作行为的主要成分 ( 如时间、地点、人物等) 。主题事件包括一类核心事件或活动以及所有与之直接相关的事件和活动,可以由多个元事件片段组成。当前主要是面对元事件抽取,关于主题事件抽取的研究较少。

2.1、元事件抽取

 根据实现方式,元事件抽取可以分为两类:基于模式匹配的方式基于机器学习的方式基于神经网络的抽取方法

2.1.1、基于模式匹配的元事件抽取

基于模式匹配的元事件抽取是指在元事件模板的指导下 对元事件进行检测和信息提取,元事件模板主要用于指明构 成目标信息的上下文约束环境。基于模式匹配的元事件抽取包含两个基本步骤:模式获取和元事件抽取
 这种方法的关键在于元事件模板的构建。最初,模板构建主要依靠手工进行,这种方法费时费力,需要较强的专业知识。研究人员尝试用机器学习的方法自动构建元事件模板, 取得了良好的效果。总的来说,基于模式匹配的元事件抽取在特定领域往往能够取得较好的检测效果,但其跨领域和可移植性较差,因此近年来研究人员更多地利用机器学习的方法进行元事件抽取。

2.1.2、基于机器学习的元事件抽取

基于机器学习的元事件抽取采用机器学习的方法识别事件,就是借鉴文本分类的思想,将事件类别及事件元素的识别转化成为分类问题,其核心在于分类器的构造和特征的选择。但事件分类与文本分类又有所区别,主要表现在以下方面: 分类的文本短,大部分都是一个完整的句子; 因为是事件表述语句,所以语句中包含的信息量大。

对元事件的识别主要包括事件类别的识别与分类以及事件元素识别两大核心任务

  • Chieu 等首次在事件抽取中引入最大熵模型用于事件元素的识别,实现了对讲座通告和人事管理事件的抽取。Paper Link

  • H. Llorens 等通过 CRF 模型进行语义角色标注,并应用于TimeML的事件抽取,提升了系统的性能。为了提高识别效果,有时将多种机器学习算法混合使用或将机器学习与模型匹配相结合。Paper Link

  • D. Ahn 结合 MegaM 和 TiMBL 两种机器学习方法分别实现了事件类别识别和事件元素识别两大任务,在 ACE 语料的实验结果表明该方法优于采用单一算法。Paper Link

上述研究大多是基于触发词来进行事件的探测,例如 Ahn 的研究将每一个词作为训练实例,然后采用 MegaM 二元分类器判断当前词是否为触发词。这种方式简单直观,但触发词只占所有词的一小部分,这样就在训练中引入大量反例,导致正反例不平衡,并且对每个词判断会导致计算量的额外增加。为了解决上述问题:赵妍妍采用了一种基于触发词扩展和二元分类相结合的方法来识别事件类别。在训练中将触发词收录在词典中并通过同义词林进行扩展,较好地解决了训练实例正反例不平衡以及数据稀疏问题,在 ACE 的中文语料上取得较好的效果。而许红磊与 Naughton 则采用基于事件实例的方式进行事件的探测,这种方法将句子而非词语作为识别实例,克服了传统的基于触发词方法不可避免的正反例失衡和数据稀疏问题。许红磊采用二元分类器过滤非事件句,得到候选事件句,然后采用多元分类器对候选事件句进行分类。Naughton 则将事件的探测转化为句子聚类问题,通过聚类得到事件句。
 综上可知,基于机器学习的方法虽然不依赖于语料的内容与格式,但需要大规模的标准语料,否则会出现较为严重的数据稀疏问题。但现阶段的语料规模难以满足应用需求,且人工标注语料耗时耗力,为了缓解获取已标注语料的困难,有关学者探究了半监督及无监督的学习研究。另外,特征选取也是决定机器学习结果好坏的重要因素。因此,怎样避免数据稀疏现象以及如何选择合适的特征,成为基于机器学习方法研究的重要课题。当前绝大多数研究都是基于短语或句子层级的信息,利用篇章级或跨篇章的信息来提高抽取性能将成为一个新的热点。

2.1.3、基于神经网络的抽取方法

基于神经网络的抽取方法作为一种有监督多元分类任务,事件抽取方法包括2个步骤: 特征选择和分类模型。本文根据使用特征的范围不同模型学习方式不同是否融合外部资源进行分类。

2.1.3.1、根据所使用特征的范围分类

根据所使用特征的范围分类:事件抽取方法可以分为句子级的事件抽取方法和篇章级的事件抽取方法。总地来说,句子级的事件抽取方法只使用句子内部获取的特征。而篇章级的事件抽取方法则包含了跨句、跨文档抽取的特征信息。一般情况下,句子级特征是所有事件抽取方法通用的特征,而篇章级特征则属于面向实际任务挖掘的特效特征。

句子级的事件抽取方法
 传统方法中,句子级别的特征可以分为基于词的特征和基于词对的特征。其中,基于词的传统离散特征包括: 1)词法特征:例如当前词及周边词的一元/ 二元语法、词性标签、词干、同义词等。2)句法特征:例如当前词的依存词和核心词、涉及的依存关系、是否是未被引用的代词、句法 分析树中路径等。3)实体信息:例如实体类型、距离最近的实体类型、是否是相同类型论元候选中距离触发词最近的等等。基于词对的特征有: 触发词-触发词之间的共现关系和触发词-论元的多种依赖关系等。

篇章级事件抽取方法
它额外考虑了跨句子或跨文档的特征辅助任务实现。例如,相同/类似事件对应的论元一致性,同一文档内的相同单词触发的事件类型一致性特征,相同类型的实体参与的事件一致性特征。

2.1.3.2、模型学习方式不同分类

 **模型学习方式不同分类:**可以分为基于流水线模型的事件抽取方法和基于联合模型的事件抽取方法。
基于流水线模型事件抽取方法
 把元事件抽取分为触发词识别和论元识别等 任务,所有的任务依次被执行。其中,触发词识别是整个元事件抽取的基础,后续工作依赖于之前任务的成果。文献HNA提出将元事件抽取分为触发词检测、论元检测、事件对齐、事件关系检测4个部分,并提出利用流水线的方法进行事件抽取。分别选择每个任务的特征,使用K近邻和最大熵算法构建模型,比较两种算法在相同任务中的性能。 特定的事件类型一般对应特定的论元,因此触发词信息对于论元识别很重要。另一方面,特定的论元通常也对应特定的事件,由于管道式方法中触发词检测总是在论元检测之前,在进行触发词检测时无法考虑论元信息,从而限制了触发词检测的精度,因此研究者们提出了联合学习方法。
基于联合模型事件抽取方法
 大部分事件抽取方法都是流水线模型学习方式,先进行事件识别模型的学习,再转入论元角色分类模型的学习。而经仿真验证基于联合模型的学习方式的效果要优于流水线模型学习方式,故而也随即产生了基于联合模型的事件抽取工作。联合学习方法对触发词识别、论元识别等任务构建一个联合学习模型,使得触发词和论元信息可以相互促进彼此的提取效果。

2.1.3.3、是否融合外部资源分类

 ACE05 数据是现有的为数不多的有标记事件数据之一,是在新闻、博客、访谈等数据上进行人工标注得到的。ACE数据的标注质量不高以及规模较小的问题,也在很大程度上影响了事件抽取任务的发展。为此很多工作尝试借助外部资源辅助事件抽取任务的功能达成。根据是否使用外部资源,可以分为基于同源数据( 即 ACE 数据) 的事件抽取方法和融合外部资源的事件抽取方法。
 由于 ACE05 数据集规模小,且存在较严重的事件类型稀疏问题,因而衍生了一些相关工作以解决上述问题。
 Liu 等人尝试借助 FrameNet 数据集缓解 ACE05 数据集中的若干类别事件的稀疏问题,研究给出通过 Freebase 构建一个基于Wikipedia 的事件数据集。Paper Link
 Chen 等人通过远距离监督方法构建了大规模事件抽取数据集,从而帮助事件抽取任务的实效提升。Paper Link
 Zeng 等人采取一种新颖的思路从 Wikipedia 和 Freebase 中构建大规模事件数据集。Paper Link

2.2、主题事件抽取

 一个主题事件由多个动作或状态组成,其描述信息通 常分散在一个或多个文档中,而元事件抽取的方法局限在句子层级,显然无法满足对主题事件的抽取。主题事件抽取的关键是如何确定描述同一个主题事件的文档集合,以 及如何通过篇章内或跨篇章的理解技术将这些集合中分散的主题事件片段进行归并。在研究中通常采用事件框架本体来表示主题事件的基本组成以及各成分间的联系。

2.2.1、基于事件框架的主题事件抽取

基于事件框架的主题事件抽取方法通过定义结构化、 层次化的事件框架来指导主题事件的抽取,利用框架来概括事件信息,表达主题事件的不同侧面。框架是一种常用的知识表示方法,可用于描述相关概念的轮廓框架。 M. Minsky 在 “A Framework for Representing Knowledge”一 文中提出了框架的概念,引起了学者的关注。当人们面临 一个新的情景时,会从头脑中已存在的大量典型情景中搜 索一个情景来认识新事物,这些典型的情景就是知识框 架。例如针对一个会议事件,人们在头脑里自然会想到, 会议发生的时间、地点、主办机构、参会者、政府的反映 以及会议带来的影响等不同的侧面。事件的侧面在语义上 可以进行分离,所以这里的框架结构其实是一种分类体 系,用于分隔一个事件涉及的不同侧面。用来描述事件不 同侧面的词语为事件的 “侧面词”,事件框架是由 “侧面 词”构成的一个分类体系。生成完整的事件框架体系是 框架方法的关键,如何提高框架构建的全面性以及自动化 程度是学者们研究的重点。

2.2.2、基于本体的主题事件抽取

本体是知识工程和人工智能研究领域的一个重要课题,其目标是捕获相关的领域知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇 ( 术语) 之间的相互关系。 本体的这些特点很好地符合了主题事件抽取的要求。基于本体的主题事件抽取,一般根据本体所描述的概念、关 系、层次结构、实例等来抽取待抽取文本中所包含的侧面事件及相关实体信息,主要分为3 个步骤: 领域本体的构 建,这是后续工作的基础; 基于领域本体的文本内容的自动语义标注; 基于语义标注的事件抽取。综合国内外研究可见主题事件抽取的研究并不成熟, 篇章内及跨篇章语义理解技术的缺失,致使信息的有效归 并与融合成为瓶颈。

3、事件抽取评价方法

 当前关于事件抽取的评价方法主要有两种:
基于召回率 (记为 R) 准确率 (记为 P) 的微平均 (记为F1) 值法,其中,其中P是英文单词precision的缩写,表示系统正确标注结果的总数与系统标注结果总数的比值。R为英文单词Recall的缩写,表示系统正确标注结果的总数与语料中标准标注结果的总数的比值。F1是P值和R值的一个综合度量。其公式如下:
基于丢失率 (记为 L) 误报率 (记为 M) 的错误识别代价 (记为 C) 法。Cmiss为一 次 丢 失 的 代 价, Cfa为一次误报的代价,Ltar为系统作出肯定判断的先验概率, 通常根据具体应用设定为常值。其公式如下:
 上面两种种效果测评方法之间不存在简单的逆反关系,因此在分析不同评价方法下的两种不同算法的效果时应进行适当的换算。
微平均值法一般多用于单一事件抽取任务中,如: 突发事件、门户网站、金融资讯的事件抽取。对于话题追踪任务而言,相对于正确率,人们对系统作出的错误判断往往更为敏感,这些错误包括:本应为是的判断为否 (丢失) ,本应为否的判断为是 (误报) ,因此常采用错误识别代价作为效果评价方法。另外,事件抽取的各种算法在实际应用中,除考虑其识别结果的正确率外,还应该考虑算法的复杂程度及其可实现性。一些抽取效果好的算法往往是以牺牲时间为代价的。一些算法可能由于硬件要求太高,或训练时间太长而不具备可行性。

参考文献

[1]CHIEU H L,NG H T. A maximum entropy approach to infor
mation extraction from semistructured and free text [C] / /
Proceedings of the 18th National Conference on Artificial Intelligence. USA: American Association for Artificial Intelligence, 2002: 786791.
[2] LLORENS H,SAQUETE E,et al. TimeML events recognition
and classification learning CRF models with semantic roles [C] / /Proceedings of the 23rd International Conference on Computational,2010.
[3]AHN D. The stages of event extraction [C] / /Proceedings of
the Workshop on Annotations and Reasoning about Time and Event. [s. l. ]: Association for Computational Linguistics, 2006: 18.
[4]LIU Shulin,CHEN Yubo,HE Shizhu,et al. Leveraging frame Net to improve automatic event detection[C]/ /Proceedings of 54th ACL. Berlin, Germany: Association for Computational Linguistics,2016: 2134-2143.
[5]CHEN Yubo,LIU Shulin,ZHANG Xiang,et al. Automatically labeled data generation for large scale event extraction[C]/ / Proceedings of 55th ACL. Vancouver,Canada: Association for Computational Linguistics,2017: 409-419.
[6]ZENG Ying,FENG Yansong,MA Rong,et al. Scale up event extraction learning via automatic training data generation[J] . arXiv preprint arXiv: 1712.03665, 2018

Attention

更多自然语言处理相关知识,还请关注 AINLPer公众号 ,极品干货即刻送达。

必读!信息抽取(Information Extraction)【事件抽取】相关推荐

  1. NLP事件抽取综述(上中下):中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等类型

    https://github.com/xiaoqian19940510/Event-Extraction 近年来事件抽取方法总结,包括中文事件抽取.开放域事件抽取.事件数据生成.跨语言事件抽取.小样本 ...

  2. 必读!信息抽取(Information Extraction)【关系抽取】

    来源: AINLPer 微信公众号(每日给你好看-) 编辑: ShuYini 校稿: ShuYini 时间: 2020-08-11 引言     信息抽取(information extraction ...

  3. 第十七篇:信息抽取Information Extraction

    目录 信息抽取 应用 如何? IE 中的机器学习 大纲 命名实体识别 典型实体标签 NER作为序列标记 IO 标记 IOB 标签 NER作为序列标记,继续 NER:特征 NER 的深度学习 关系抽取 ...

  4. ltp︱基于ltp的无监督信息抽取模块(事件抽取/评论观点抽取)

    无监督信息抽取较多都是使用哈工大的ltp作为底层框架.那么基于ltp其实有了非常多的小伙伴进行了尝试,笔者私自将其归纳为: 事件抽取(三元组) 观点抽取 "语言云" 以哈工大社会计 ...

  5. [中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab

    [中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab ...

  6. NAACL 2022事件相关(事件抽取、事件关系抽取、事件预测等)论文汇总

    NAACL 2022事件抽取相关(事件抽取.事件关系抽取.事件预测等)论文汇总,已更新全部的论文讲解. Event Extraction RAAT: Relation-Augmented Attent ...

  7. 篇章级的事件抽取——阅读笔记

    一.<DCFEE> <DCFEE: A Document-level Chinese Financial Event Extraction System based on Autom ...

  8. 论文导读 | 事件抽取技术发展现状

    1.   问题定义 事件抽取(Event Extraction)是一种面向非结构化文本或半结构化数据的信息抽取(Information Extraction)任务,与传统面向知识图谱的实体.关系.属性 ...

  9. 知识图谱入门知识(二)事件抽取(EE)详细介绍

    学习内容 本文主要详细介绍事件抽取EE的概念: 装载自:李景鹏 啥是事件抽取(Event Extraction)? 同时这里关于事件抽取的介绍也可以作为补充: 分层网络用于事件参数抽取 事件抽取 = ...

  10. 知识图谱(七)——事件抽取

    文章目录 一.任务概述 1.事件的定义 2.事件抽取的定义 3.相关评测和语料资源 二.限定域事件抽取 1.基于模式匹配的事件抽取方法 1)有监督的事件模式匹配 2)弱监督的事件模式匹配 3)优缺点: ...

最新文章

  1. 谁是卧底的Android应用 (原型源码)
  2. Android Studio 添加 Genymotion插件
  3. POJ3104 Drying [二分]
  4. 使用POI生成Excel文件,可以自动调整excel列宽 .
  5. Error: no such column
  6. cad完全卸载教程_CAD室内设计中厨房布置实例
  7. 判断html()中有长度,VBS 字符串长度判断的问题
  8. ARM指令CMP详解
  9. 程序员面向软件开发时,如何成功?
  10. 4 读写文件_WEB安全之SQL注入(4)——读写文件
  11. android无线投屏到win,无线投影仪怎么连接,看过教程,原来操作这么简单!
  12. python一维数组定义,python如何定义数组
  13. 此beta版已额满_天龙八部荣耀版 新手升级指南
  14. QQ空间玩吧HTML5游戏引擎使用比例分析
  15. 哈啰电动车,未来可期
  16. CSAPP HITICS 大作业 hello's P2P by zsz
  17. python 自动化刷投票脚本开发 【刷微信投票】付源码
  18. window系统如何禁止运行指定程序
  19. eNSP基础实验日记一
  20. java 格式化日期到毫秒_关于日期:Java – SimpleDateFormat格式化程序,以毫秒为单位返回纪元时间...

热门文章

  1. java判断excel导出成功poi_java判断excel导出成功poi
  2. ESP32+Python
  3. 国人当自强:两岸三地在线编程学习网站大搜罗
  4. 在阿里做前端程序员,我是这样规划的
  5. AI+时尚:下一届维密大秀会以人工智能为主题?
  6. 名帖114 祝允明 小楷《山静日长记》
  7. 计算机本科哪个科目最难,大学里最难的学科专业有哪些
  8. 精美内饰展示背景音乐_精美电影网站设计展示
  9. eclipse跑自动化脚本报错:Failed to create Chrome process.
  10. xhs2023109可x-s逆向获取