点击上方,选择星标置顶,每天给你送干货!


文 | JayLou娄杰

源 | 高能AI

本文介绍一篇ICLR2021中,录取的唯一1篇NER论文。

也许这个世界就是这样,很多东西一开始以为很简单,结果一入坑就深似海~

NER也许就是这样。一开始以为只是个“LSTM/BERT+CRF”,后来才发现居然有这么多的棘手问题:复杂抽取小样本定制化抽取降噪抽取跨语言抽取多模抽取开放抽取等等。害,心累。

本文JayJay就介绍一个极具现实意义的NER问题:NER标注数据存在漏标怎么办?

NER数据为什么会存在漏标?实体标注应该算是NLP中比较复杂的,需要专业标注知识、需要统一标注规范。NER数据中存在大量实体,标注员想要把所有实体都标注出来是不现实的,因此数据存在漏标也不可避免。

此外,为了减少标注成本,可以通过词典等知识库进行远程监督标注语料,虽然这种方式很省事儿,但语料中的实体还是会漏标,毕竟知识库的实体覆盖度有限啊。

NER数据漏标问题其实在学术上又叫「未标注实体问题」或者「不完全实体标注问题」,很好理解这是一个带噪学习(降噪学习)问题把未标注的实体当作“负样本”就是一种噪声,因为漏标的实体不应当做标签为O的负样本来看待!

试想一个极端场景:如果我们能把NER数据漏标问题解决好,我们只要积累好一个实体词典就行了!是不是很有现实意义?!

本文就介绍一篇ICLR2021中、来自腾讯AI团队的《Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition》,这篇论文尝试解决「未标注实体问题」,其主要贡献有:

  • 未标注实体问题会导致NER指标下降。主要有2个原因:一是实体标注量减少;二是把未标注实体当作负样本。其中第二个原因起主要作用。

  • 对所有非实体span,提出一种负采样策略,可以将未标注实体当作负样本训练、降低到很低水平。未标注实体问题得到极大改善,超过一众SOTA方法。

论文下载地址:https://arxiv.org/pdf/2012.05426

本文的组织结构:

一、数据漏标,会导致NER指标下降有多严重?

为了检验数据漏标,NER指标会下降到何种程度?论文对训练集中的标注实体是进行了mask,测试集不变。

此外,为了探寻未标注实体的“负作用”,论文引入了一种调节loss的方法:将那些未标注实体loss不再参与计算。换句话说:未标注实体既不当作是正样本,也不当作负样本!啥也不是!

需要注意的是:引入了调节loss的方法其实只是为了更好的分析,而在真实样本中,我们是不能提前知道哪些实体是“未标注”的!

论文采用F1值进行评估,代表模型在实体mask概率下的指标,代表模型引入调节loss后的指标,在之间。

除了F1值,还采取了2种评价指标:

  • 侵蚀率:代表实体标注量减少对NER指标下降的影响程度。在引入调节loss的前提下,与完全标注指标进行对比,其计算公式为:

  • 误导率:代表未标注实体对当作负样本时、对NER指标下降的影响程度。与引入调节loss的指标进行对比,其计算公式为:

上图给出了CoNLL03数据下,不同实体mask概率下的指标(论文采取BERT/LSTM+SoftMax两种方式):

由第1幅图可以看出:

  • 随着实体mask概率增大(未标注实体增多),指标下降明显。

  • 引入调节loss后(虚线部分),指标下降趋势趋缓,但在实体mask概率很高时,NER指标仍然会有明显下降。

由第2、3幅图可以看出:在很低的时候,误导率就较高了,而侵蚀率受影响较小,这表明:未标注实体当作负样本训练、对NER指标下降的影响程度很大,实体标注量减少对指标下降的影响较小。

二、这些年,对「未标注实体问题」的解决方案有哪些?

其实对「未标注实体问题」的解决方案也有不少,JayJay大致总结一些,如下图所示:

上述方法分别为:

  • 自动抽取短语回标训练集:这种方式会依赖于远程监督,未标注实体问题仍然存在;

  • 自训练:通过多轮迭代伪标自训练,这种方式计算费时,降噪过程不见得很work;

  • PU(positive-unlabeled) learning:为每个标签构建不同的二分类器。不过,未标注的实体仍然会影响相应实体类型的分类器;此外,该模型无法消除相邻实体的歧义。

  • Partial CRF:是CRF的拓展,改进CRF使其可以绕过未标注实体。但事实上,真正的负样本还是不可缺少的,因此该方法只用于高质量的数据集。

上述相关方法或多或少存在“这样那样”的问题,但有一个共同特点:大多还是基于CRF这种序列标注模式改进,CRF作为一个全局结构化预测问题,“未标注实体”噪声对NER的影响是全局的,“牵一发而动全身”啊。

三、如何降噪:改变标注框架+负采样,就是这么简单!

本篇论文围绕如何降低“未标注实体”噪声进行探索,总共分为两步:1、改变标注框架;2、对非实体片段进行负采样。

第一步:改变标注框架

NER标注方式通常有4种,分别是:

  1. 序列标注:每个序列位置都被标注为一个标签,比如按照BILOU标注,我们常用MLP或CRF解码。

  2. 指针标注:对每个span的start和end进行标记,对于多片段抽取问题转化为N个2分类(N为序列长度)。

  3. 多头标注:对每个token pair进行标记,其实就是构建一个的分类矩阵。

  4. 片段排列:源于Span-level NER[1]的思想,枚举所有可能的span进行分类。事实上,片段排列的思想已经被Google推崇[2]并统一了信息抽取各个子任务

本篇论文采取的片段排列方式进行NER,这里JayJay给出一个例子,如下图所示:对于含N个token的文本,理论上共有  种片段排列。如果文本过长,会产生大量的负样本,在实际中需要限制span长度并合理削减负样本。

片段排列有什么好处呢? 这种方式与同序列长度进行解耦,可以单独为每一个候选实体片段进行预测,打破了CRF那种全局结构化预测问题的限制,这样可以更加灵活地处理复杂抽取、小样本、降噪问题。

上图展示了本文的模型架构(基于片段排列),总体是基于BERT+SoftMax。

代表字符  和构成的span表示,计算过程如上图所示,然后喂入SoftMax中解码。所有可能构成片段都采取上图方式进行表征和预测。

第二步:负采样

论文具体的降噪方式很简单,就是对所有非实体片段进行负采样(下采样)!

这也很好理解:所有非实体片段中,有一部分可能是真正的、但未标注的实体(也就是未标注实体),但我们把能把它们都当作“负样本”看待,因此需要对所有非实体片段进行负采样

采样进行loss计算的非实体片段共有个,为序列长度,。

上图展示loss计算:蓝框是标注实体集合的loss计算,红框是采样实体集合的loss计算。

论文也通过公式证明:通过负采样,可以将未标注实体当作负样本训练、维持在一个很低水平

上述公式表明:通过负采样,不将未标注实体作为负样本的概率大于 ,可以大幅缓解未标注实体导致NER指标下降。

作者也通过实验给出了不同实体mask概率下,将未标注实体当作负样本的比例。如下图所示:负采样将未标注实体当作负样本训练、维持在一个很低水平。

四、负样本采样,效果如何?

上图给出了不同实体mask概率下:负样本采样方法与BERT-Tag的比较,可以看出:在实体存在漏标的场景下,传统的BERT标注方式会导致NER指标剧烈下降,而负采样方法可以极大缓解这一问题

上图给出了不同实体mask概率下,误导率的实验结果:本文的负采样方法,使得误导率维持在一个低水平。

此外,上图也给出在众多的「未标注实体问题」解决方案中,本文方法效果最佳。

总结

本文针对「未标注实体问题」进行介绍,提出了一种负采样策略,可以将未标注实体当作负样本训练、降低到很低水平,未标注实体问题得到极大改善。

说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家:

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析


参考资料

[1]

Span-based Joint Entity and Relation Extraction with Transformer Pre-training: https://arxiv.org/pdf/1909.07755.pdf

[2]

Entity, Relation, and Event Extraction with Contextualized Span Representations: https://www.aclweb.org/anthology/D19-1585.pdf

整理不易,还望给个在看!

ICLR2021 | 唯一录取的NER论文:NER数据存在漏标怎么办?相关推荐

  1. 命名实体识别 NER 论文综述:那些年,我们一起追过的却仍未知道的花名 (一)...

    点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要24分钟 跟随小博主,每天进步一丢丢 作者: 龚俊民(昵称: 除夕) 学校: 新南威尔士大学 方向: 自然语言处理和可解释学习 知乎: http ...

  2. lstm原始论文_命名实体识别NER论文调研

    因为NER任务与笔者之前做的CCF互联网金融新实体识别竞赛相关,所以这两个月也调研了一些NER的算法,这两年的NER算法思想主要集中在将词典信息融入训练过程,达到减少中文语义歧义的效果. CCF互联网 ...

  3. ai伪造论文实验数据_5篇有关AI培训数据的基本论文

    ai伪造论文实验数据 Many data scientists claim that around 80% of their time is spent on data preprocessing, ...

  4. mysql 唯一索引出现重复数据_MySQL 创建唯一索引忽略对已经重复数据的检查

    MySQL 创建唯一索引忽略对已经重复数据的检查 在创建唯一索引的基础上加上关键字"IGNORE "即可. # 重复数据 mysql> select aid,count(ai ...

  5. 计算机硕士论文质疑数据不够,硕士论文伪造数据 抽检_硕士论文编数据的后果_硕士论文数据造假怎么被发现...

    如何举报兰州大学硕士生硕士论文学术造假 本人兰大新生,院长讲话时只提了三个方面1.要敢于挑战学术权威,思维要活跃.2.要坚持实验记录实事求是,不能伪造数据.3.最后一个就是不能学术造假,我校某院的某硕 ...

  6. 计算机专业硕士论文能编吗,论文发表:计算机硕士论文编数据被发现怎么办?.docx...

    论文发表:计算机硕士论文编数据被发现怎么办? 计算机硕士论文写作强调观点的科学性和数据的准确性,这两方面没有在写作得以很好体现的话,那么写好的论文质量将会大受影响.大家都知道一点,那就是数据的搜集引用 ...

  7. 论文趋势分析——数据理解与分析

    github地址:链接 论文趋势分析 1数据转换 1.1读取原始数据 1.2爬取论文类别数据 1.3取data的子集进行处理 1.4对categories进行处理 1.5数据连接 1.6存储转换后的数 ...

  8. 26篇计量经济经典论文复现数据和Stata或R代码

    26篇文章的复现数据.Stata或R复制程序.各位学者可以阅读这些文章,并根据Stata和R代码对原文中的图表进行一一复制,只有这样才能成长更快. 以其中一篇文章为例,包含了以下内容: [26篇论文目 ...

  9. 唐常杰--一篇 它引 上万的大牛论文 与 数据血统论-- 趣味数据挖掘之三

       一篇 "它引" 上万的大牛论文 与 数据血统论-- 趣味数据挖掘之三(唐常杰)     本文先通俗地介绍快速挖掘关联规则的Apriori算法,然后介绍发表这一算法的论文(它被 ...

  10. 【DBMS 数据库管理系统】数据仓库中 数据追加 ( 时标方法 | DELTA 文件法 | 前后映像文件法 | 日志文件法 )

    文章目录 一.数据追加 概念 和 方法 二.时标方法 三.DELTA 文件法 四.前后映像文件法 五.日志文件法 一.数据追加 概念 和 方法 数据仓库 数据追加 : "数据追加" ...

最新文章

  1. GPT3 api接口调用
  2. 马斯克遭“天劫”:40颗星链卫星葬身地磁风暴,数千万美元打了水漂
  3. python2 python3 中 raw_input input 区别
  4. 【mysql】配置 选项文件
  5. tomcat 轮询_用Spring长轮询Tomcat
  6. 手机发布日期为什么保密?罗永浩这么说...
  7. Thread 等待异步方法执行完成方案:AutoResetEvent.WaitOne()
  8. 常用sql001_partition by 以及 row_number()和 dense_rank()和rank()区别
  9. C++折半查找的实现
  10. go并发编程实战 第二版 pdf_完美!啃透P9大佬这份完整版的《并发编程宝典》,成为Offer收割机...
  11. 第二十三章:触发器和行为(九)
  12. 【AMESim】AMESim和Simulink联合仿真步骤
  13. idea安装及配置Tomcat
  14. npm install报错ERR! code ETIMEDOUT的解决办法
  15. 刘晓燕,考研核心词汇1500,1-20讲【前十讲】【谐音记忆】【没人比我详细】【超级原创】
  16. Linux内核启动过程和Bootloader
  17. TextView描边、渐变、阴影效果
  18. C语言中文字符索引,C语言关键字中英文对照索引
  19. 羊毛出在狗身上让猪来买单 - 智能音箱背后的平台经济
  20. Android SELinux开发入门指南之如何增加Native Binder Service权限

热门文章

  1. 第九章 限制性图谱和正则表达式
  2. 每日记载内容总结46
  3. XStream实现缓存
  4. hihocoder题目
  5. Struts2-Value Stack浅析
  6. ThinkPHP 3 的输出
  7. 一些易忘记的常识--CSS,不定期添加
  8. 电脑没有音频设备怎么办
  9. 普通开发人员与软件工程师的区别
  10. Flash Memory(一)