论元笔记 ACL 2017|Automatically Labeled Data Generation for Large Scale Event Extraction
文章目录
- 1 简介
- 1.1 创新
- 2 背景知识
- 3 数据生成
- 4 事件抽取
- 5 实验
1 简介
论文题目:Automatically Labeled Data Generation for Large Scale Event Extraction
论文来源:ACL 2017
论文链接:https://aclanthology.org/P17-1038.pdf
1.1 创新
- 使用Freebase和FrameNet自动得标注事件抽取数据,使用Freebase找到关键的论元,使用FrameNet过滤带噪声的触发词和扩展触发词。
2 背景知识
- Freebase是一个语义知识库,包含很多CVTs(compound value types),将CVTs的类型映射为事件类型、CVT实例映射为事件实例、CVT的值映射为论元、CVT的角色映射为论元的角色。
- FrameNet是一个语言资源库,包含超过1000个frames和10000个Lexical Units(LUs),frames中的LUs类似一个事件中的触发词。
3 数据生成
生成数据的整体框架如上图,主要包括下面四个部分:
- 关键论元检测:使用Key Rate (KR)衡量一个论元在事件中的重要性,该值取决于两部分:角色特点(Role Saliency (RS))和事件关联(Event Relevance (ER))。角色特点RS用来衡量论元表示一个具体事件的能力。事件关联用来衡量论元决定一个事件类型的能力。公式如下:
![]() |
![]() |
![]() |
- 触发词检测:首先使用上一步的关键论元在Wikipeida中筛选出可能表现事件的句子,该模块将动词检测为触发词,假设一个动词在某个事件类型的句子中出现多次,则该动词趋于为该事件的触发词,同时在很多句子中都出现的动词排除如is。使用触发词候选频率(Trigger Candidate Frequency (TCF)) 和触发词事件类型频率Trigger Event Type Frequency (TETF)来衡量上述两个指标。公式如下:
![]() |
![]() |
![]() |
触发词过滤和扩展:该模块使用FrmeNet对触发词过滤和扩展(因为上部分得到的触发词均为动词),使用Freebase中某个事件的全部平均词向量和FrameNet中frame的lexical units进行相似度计算,最高的相似度映射到此frame,没有映射的触发词删除,映射到frame中的高置信度的名词扩展到触发词库。
使用Soft Distant Supervision自动标注数据,假设句子包含Freebase中全部的关键论元和一个一致的触发词最可能表示一个事件,该句子中的论元可能扮演该事件中相同的角色。
4 事件抽取
将事件抽取定义为一个两步的任务(事件分类、论元分类),事件分类预测是否关键论元参与Freebase中的事件,论元分类对论元的角色进行分类。baseline使用DMCNN,为了缓解自动标注数据中的错误标签问题,使用多实例学习(Multi-instance Learning)(参考链接)。公式如下:
![]() |
![]() |
![]() |
5 实验
人工评测的结果:
在ACE数据集上扩展数据(ED)的实验结果:
不同关键论元指标的实验结果:
不同关键词数量的实验结果:
不同触发词指标的实验结果:
Held-out Evaluation(留一部分Freebase事件训练,新发现的事件进行评测):
人工评测新发现的事件(没有在Freebase)的实验结果:
论元笔记 ACL 2017|Automatically Labeled Data Generation for Large Scale Event Extraction相关推荐
- Automatically Labeled Data Generation for Large Scale Event Extraction
Automatically Labeled Data Generation for Large Scale Event Extraction 简介 这篇文章关注对event extraction提供标 ...
- Automatically Labeled Data Generation for Large Scale Event Extraction论文笔记
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.当年现状 二.数据集 三.方法 小结 总结 前言 例如:本周阅读了这篇论文,特此记录笔记 一.当年现状 .在 AC ...
- 【论文阅读笔记|ACL2019】PLMEE:Exploring Pre-trained Language Models for Event Extraction and Generation
论文题目:Exploring Pre-trained Language Models for Event Extraction and Generation 论文来源:ACL 2019 国防科技大学 ...
- 【论文解读 ACL 2019 | PLMEE】Exploring Pre-trained Language Models for Event Extraction and Generation
论文题目:Exploring Pre-trained Language Models for Event Extraction and Generation 论文来源:ACL 2019 国防科技大学 ...
- 论文:Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data 目录 Named Entity R ...
- [中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab
[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab ...
- [论文笔记 ECCV2020] Learning to Count in the Crowd from Limited Labeled Data
[论文笔记 ECCV2020] Learning to Count in the Crowd from Limited Labeled Data 摘要 Abstract 贡献 Contribution ...
- 【论文笔记】Learning to Count in the Crowd from Limited Labeled Data
文章目录 Abstract 1 Introduction 3 Preliminaries 4 GP-based iterative learning 4.1 Labeled stage 4.2 Unl ...
- Learning to Learn from Noisy Labeled Data
知乎链接:Learning to Learn from Noisy Labeled Data 论文地址:https://arxiv.org/pdf/1812.05214.pdf 代码分享:https: ...
最新文章
- Java8之——简洁优雅的Lambda表达式
- python语言程序设计教程-Python语言程序设计(视频教程)
- 思科谈OpenDaylight
- 【项目管理】敏捷开发项目管理流程
- 领英上面的experience和project的区别
- 总有个短信发来一行乱码_个别收到的短信乱码,有什么办法还原么。。。
- Python 的内置数据类型:列表 list、元组 tuple、字典 dict、集合 set.
- arraylist从大到小排序_java基础算法之二叉树排序(递归)
- css知识笔记(二)——盒子模型
- 第九篇:Spring Boot整合Spring Data JPA_入门试炼02
- C/C++——一些与输入有关的istream类成员函数
- 次世代游戏设计的相关介绍
- java webservice 接收数据_WebService客户端,接收数据解析存入数据库
- table中动态删除当前行
- -------------------开启我的手残之旅---------我就是喜欢写笔记-------咋滴啦?-----
- 微信小程序API之setInterval
- 易会满重磅发声!新证券法将给资本市场带来哪些新变化?证监会职责定位有何新要求?...
- qml 中英文虚拟键盘
- codeforce 427 C. Checkposts(tarjan 强连通分量)
- 周慧敏张曼玉关之琳赵雅芝 风华绝代不畏岁月