论元笔记 ACL 2017|Automatically Labeled Data Generation for Large Scale Event Extraction

文章目录

1 简介
- 1.1 创新
2 背景知识
3 数据生成
4 事件抽取
5 实验

1 简介

论文题目：Automatically Labeled Data Generation for Large Scale Event Extraction
论文来源：ACL 2017
论文链接：https://aclanthology.org/P17-1038.pdf

1.1 创新

使用Freebase和FrameNet自动得标注事件抽取数据，使用Freebase找到关键的论元，使用FrameNet过滤带噪声的触发词和扩展触发词。

2 背景知识

Freebase是一个语义知识库，包含很多CVTs(compound value types),将CVTs的类型映射为事件类型、CVT实例映射为事件实例、CVT的值映射为论元、CVT的角色映射为论元的角色。
FrameNet是一个语言资源库，包含超过1000个frames和10000个Lexical Units(LUs)，frames中的LUs类似一个事件中的触发词。

3 数据生成

生成数据的整体框架如上图，主要包括下面四个部分：

关键论元检测：使用Key Rate (KR)衡量一个论元在事件中的重要性，该值取决于两部分：角色特点(Role Saliency (RS))和事件关联(Event Relevance (ER))。角色特点RS用来衡量论元表示一个具体事件的能力。事件关联用来衡量论元决定一个事件类型的能力。公式如下：

触发词检测：首先使用上一步的关键论元在Wikipeida中筛选出可能表现事件的句子，该模块将动词检测为触发词，假设一个动词在某个事件类型的句子中出现多次，则该动词趋于为该事件的触发词，同时在很多句子中都出现的动词排除如is。使用触发词候选频率(Trigger Candidate Frequency (TCF)) 和触发词事件类型频率Trigger Event Type Frequency (TETF)来衡量上述两个指标。公式如下：

触发词过滤和扩展：该模块使用FrmeNet对触发词过滤和扩展(因为上部分得到的触发词均为动词)，使用Freebase中某个事件的全部平均词向量和FrameNet中frame的lexical units进行相似度计算，最高的相似度映射到此frame，没有映射的触发词删除，映射到frame中的高置信度的名词扩展到触发词库。
使用Soft Distant Supervision自动标注数据，假设句子包含Freebase中全部的关键论元和一个一致的触发词最可能表示一个事件，该句子中的论元可能扮演该事件中相同的角色。

4 事件抽取

将事件抽取定义为一个两步的任务(事件分类、论元分类)，事件分类预测是否关键论元参与Freebase中的事件，论元分类对论元的角色进行分类。baseline使用DMCNN，为了缓解自动标注数据中的错误标签问题，使用多实例学习(Multi-instance Learning)(参考链接)。公式如下：

5 实验

人工评测的结果：

在ACE数据集上扩展数据(ED)的实验结果：

不同关键论元指标的实验结果：

不同关键词数量的实验结果：

不同触发词指标的实验结果：

Held-out Evaluation(留一部分Freebase事件训练，新发现的事件进行评测)：

人工评测新发现的事件(没有在Freebase)的实验结果：

论元笔记 ACL 2017|Automatically Labeled Data Generation for Large Scale Event Extraction相关推荐

Automatically Labeled Data Generation for Large Scale Event Extraction
Automatically Labeled Data Generation for Large Scale Event Extraction 简介这篇文章关注对event extraction提供标 ...
Automatically Labeled Data Generation for Large Scale Event Extraction论文笔记
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一.当年现状二.数据集三.方法小结总结前言例如:本周阅读了这篇论文,特此记录笔记一.当年现状 .在 AC ...
【论文阅读笔记|ACL2019】PLMEE：Exploring Pre-trained Language Models for Event Extraction and Generation
论文题目:Exploring Pre-trained Language Models for Event Extraction and Generation 论文来源:ACL 2019 国防科技大学 ...
【论文解读 ACL 2019 | PLMEE】Exploring Pre-trained Language Models for Event Extraction and Generation
论文题目:Exploring Pre-trained Language Models for Event Extraction and Generation 论文来源:ACL 2019 国防科技大学 ...
论文：Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data 目录 Named Entity R ...
[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab
[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab ...
[论文笔记 ECCV2020] Learning to Count in the Crowd from Limited Labeled Data
[论文笔记 ECCV2020] Learning to Count in the Crowd from Limited Labeled Data 摘要 Abstract 贡献 Contribution ...
【论文笔记】Learning to Count in the Crowd from Limited Labeled Data
文章目录 Abstract 1 Introduction 3 Preliminaries 4 GP-based iterative learning 4.1 Labeled stage 4.2 Unl ...
Learning to Learn from Noisy Labeled Data
知乎链接:Learning to Learn from Noisy Labeled Data 论文地址:https://arxiv.org/pdf/1812.05214.pdf 代码分享:https: ...