来自:AI自然语言处理与知识图谱

如何以低成本数据构建高效NER模型?

导    语:

获取高质量的标注数据是需要大量的人力、物力,特别是在NER任务上面,对新领域获取大量的且高质量的标注数据既昂贵又耗时,如何以低成本但却高效益的方式完成NER是一个重要的问题。本篇文章引入了 entity triggers (实体触发器),在数据中标注 trigger,以 trigger 的角度增加 NER 效果,20% 的数据量便能够达到以往 70% 数据量的效果。

Entity triggers 认知

该篇论文目前在 arxiv 上面,已经被 ACL2020 接受

    文末附代码 Github Repo。

高质量的数据是监督学习的底层依赖,然而获取高质量、大规模的标注数据是昂贵且费时的工作,虽然现在也有一些开放的数据标注平台可以辅助人工,减少人员工作量,但没有太大的改变。另外,针对少量样本数据,也有大量的迁移学习研究工作可以借鉴。

本文提出以 entity triggers(实体触发器)的角度出发增强 NER 的效果,利用有限的样本数据,构建低成本但高效的 NER 模型,我们先来看看什么是 entity triggers ? 以及为什么觉得它会有用?

我们来看下面的一个例子:在识别下面这句话时,我们会把 Kasdfrcxzv 标记为 Location,因为其中有一个短语是 “travel ... in”,根据这个短语,我们可以认定我们的标记是正确的。这样的短语是实体的线索短语,称之为 entity triggers

(1)  Tom traveled a lot last year in Kasdfrcxzv

接下来,我们再来看一张图片(如下图),图中  Rumble Fish 是类型为 RES(restaurant, 饭店)的实体,t1 和 t2 为两个均指向同一实体的两个 trigger, 说明同一实体的 trigger 可能存在多个。Trigger 应该对人识别实体是个充分必要的条件,即使实体是个随机的单词或者不认识这个实体,也能够通过 trigger 判断出所属实体的类型

本文的重点就在于认为将 trigger 标记和以往的实体标记结合起来,将会增加NER模型的泛化能力。还有一点,trigger 对于推理未标记的数据(实际评测)会给予强有力的支撑,如下说明。另外作者们认为标记 trigger 相对容易。

我们再列举一句话(评测),如果能够推理出 “enjoyed a great dinner...at” 和上图中已经存在的 "had...launch at" 具有相同的语义表示,我们便能够很快将 Zcxlbz 识别为RES 类型的实体,相反的,如果没有标记 trigger,仅仅标记了实体,便需要有大量类似的样本数据才能够识别出新的实体。

(2)   enjoyed a great dinner with Alice at Zcxlbz

本文在两份 NER数据上面共计标注了 14k 的 entity triggers,这两份数据如下,并已经 released:

  • CoNLL03 (generic domain)

  • BC5CDR (biomedical domain)

框架与效果

本文提出的框架是 Trigger Matching Networks(TMN), 此框架主要包含以下三个部分。

  • TrigEncoder:学习 trigger 表示,做实体类型多分类(PER, LOC等)。

  • TrigMatcher:样本与 trigger 语义匹配,为新样本推理相似 trigger。

  • SeqTagger:NER序列标注,融合 trigger 表示。

其中学习 trigger 表示 和 样本匹配 trigger 两者不可分开来做,因此TrigEncoder 和 TrigMatcher 采用的是共享向量空间,联合建模的方式。SeqTagger 必须等这两个完成才能进行,因此又是pipline的方式。

    总之,一个TMN,三个部分,两步走策略。

我们具体来看下 TMN 的模型框架图,如下图。

第一步:联合训练(左),首先看 gs 和 gt , 其中 gs 表示句子编码表示,gt 是 trigger 编码表示,两者均是采用 BiLSTM + Attention 加权求和获取。gt 要做实体类型多分类,得到 LTC 。gt 和 gs 两者要计算匹配,算 contrastive loss(如下图),得到 LSM,总体 Loss 为两者之和,λ为超参。

L = LTC + λLSM

    第二步:序列标注(右),主体采用的是典型的 BiLSTM + CRF,其中 第一步中的 trigger 表示要 先做 mean pooling, 后将其作为 attention query, 对 BiLSTM 编码后的隐层状态加权(如下图),然后 concat。

    我们再来看下如何做 Inference 在 Unlabeled Sentences, 如下图。

对于一个 unlabeled 句子,我们未知其 trigger, 和上面一样编码得到 gs, 然后与训练好的多个 gt 计算距离,获取最为相似的 k 个 trigger 表示,将其做 mean pooling,作为新的 attention query。

    最后我们来看下实验效果

    实验结果如下图:

  • TMN在标记了 20%的训练数据能够达到原始数据50%-70%的性能。这一点是值得关注的。

  • TMN + self-training 相比 TMN 上升 0.5 ~ 1 个点。

结束语

        本文引入 trigger 增强 NER 的效果,虽然也需要标记 trigger 数据,作者们认为相对容易(容不容易只有标记数据人员清楚啊),但是 trigger 对增强 NER 这一点从实验效果来看是可以的,而且 20%的数据达到70%的效果,这点值得关注。

论文代码:https://github.com/INK-USC/TriggerNER

参考资料

  1. Lin B Y, Lee D H, Shen M, et al. Triggerner: Learning with entity triggers as explanations for named entity recognition[J]. arXiv preprint arXiv:2004.07493, 2020.

相关注明

上述图片均来自于上述参考资料。


添加个人微信,备注:昵称-学校(公司)-方向,即可获得

1. 快速学习深度学习五件套资料

2. 进入高手如云DL&NLP交流群

记得备注呦

【ACL2020论文尝鲜】如何以低成本的数据构建高效NER模型?相关推荐

  1. 特斯拉自动驾驶新能力:识别红绿灯停车标识;尝鲜车主:实用好用

    白交 发自 凹非寺  量子位 报道 | 公众号 QbitAI 特斯拉,现在可以买到的最有智能化体验的汽车. 撇开安全话题,自动驾驶的能力和功能,一直走在行业最前沿. 这不,城区道路驾驶里,连交通信号灯 ...

  2. 89元尝鲜智能家居 天猫精灵方糖智联3件套简评

    毫无疑问,智能家居会成为互联网与实业的新热点,而不是简单概念炒作与宣传,因为AI智能音箱产品价格已经杀的"刺刀见红",比如本文介绍的"天猫精灵方糖智联3件套", ...

  3. Taro 小程序开发大型实战(六):尝鲜微信小程序云(上篇)

    欢迎继续阅读<Taro 小程序开发大型实战>系列,前情回顾: 熟悉的 React,熟悉的 Hooks[1]:我们用 React 和 Hooks 实现了一个非常简单的添加帖子的原型 多页面跳 ...

  4. arm云教室服务器_便宜又好用!云上ARM尝鲜体验

    混合云小白 网易云解决方案架构师,在云产品和云解决方案的道路上继续爬坑. 名为"ARM架构CPU"的新变革 说起ARM(Advanced RISC Machine)架构的CPU,从 ...

  5. 读标准03-IEEE1451.5标准协议尝鲜实现

    读标准03-IEEE1451.5标准协议尝鲜实现 前面两个文章里面已经详细描述了 TEDS 和 Message 的组成,这里 C 的实现分两个部分:分别对 TEDS 和 Message 的 数据结构实 ...

  6. JDK 16 昨日正式发布,新特性实践尝鲜来啦!

    JDK 16在2021年2月18日已完成最终候选版本,并于2021年3月16日正式发布.和JDK 15一样,JDK 16也会是一个短期版本,仅支持六个月.而计划在2021年9月发布的JDK 17将会是 ...

  7. 微信团队分享:Kotlin渐被认可,Android版微信的技术尝鲜之旅

    本文由微信开发团队工程是由"oneliang"原创发表于WeMobileDev公众号,内容稍有改动. 1.引言 Kotlin 是一个用于现代多平台应用的静态编程语言,由 JetBr ...

  8. galaxy android 8,三星终于正式升级安卓8.0!Galaxy S8尝鲜

    原标题:三星终于正式升级安卓8.0!Galaxy S8尝鲜 经过长时间的测试,在友商陆续吃上奥利奥之后,三星终于开始向Galaxy S8/S8+正式推送安卓8.0,也带来了新的Experience U ...

  9. 鸿蒙系统开发者公测,公测尝鲜开启!华为Mate40/P40开始和安卓渐行渐远

    目前华为官方发布公告,华为EMUI的微博等相关官方媒体账号全部更名为HarmonyOS,这也意味着HarmonyOS将会成为华为在软件系统层面的重心,彻底替代基于Android的华为EMUI. 至于那 ...

  10. 华为鸿蒙去哪里更新,华为鸿蒙OS正式尝鲜版名单更新,升级?还是不升级?

    原标题:华为鸿蒙OS正式尝鲜版名单更新,升级?还是不升级? 请点击[关注],获取更多数码资讯 华为鸿蒙系统正式版本已经开始推送,公测尝鲜版与正式尝鲜版机型名单已经更新:"Mate40系列.M ...

最新文章

  1. 如何通过简化标题来提升核心关键词排名?
  2. WCF 第四章 绑定 netMsmqBinding
  3. js 数字序号 转 字母序号
  4. SQL Server 数据库原理与应用
  5. 设计模式(三):单例模式
  6. 让计算机工作起来教学反思,计算机教学反思
  7. 备考OCJP认证知识点总结(一)
  8. 基于C#制作的简易代码生成器
  9. 研究生看论文的看的是什么
  10. vc程序大小优化最佳方案(转)http://blog.sina.com.cn/s/blog_4c50333c0100gjs3.html
  11. Nature:我叫“P值” 这是我的故事
  12. 如何制作抖音卡点视频,使用预设制作酷炫转场
  13. 哪里有云南ip服务器,云南那些服务商可以提供云南本地ip服务器
  14. 【Linux】SIGCHLD信号
  15. 2.1 Java范型
  16. (转载)constnbsp;charnbsp;*amp;nbs…
  17. 百度统计代码怎么开通,百度统计代码如何获取?怎么在网站上添加百度统计代码?
  18. 今天会是有offer的一天么:面试时你真的会写二分查找么
  19. H.264编码相关概念
  20. PCB模块化设计05——晶体晶振PCB布局布线设计规范

热门文章

  1. unity脚本生命流程
  2. Socket 学习(三).5 UDP 的弱点
  3. FusionCharts 学习总结
  4. 全宁对医药行业销售代表的介绍
  5. poj 3321 Apple Tree 树状数组
  6. hibernate反向工程
  7. 08返回一个整数数组中最大子数组的和
  8. Linux下批量修改文件名方法
  9. XAMPP浏览器输入localhost跳转localhost/dashboard/
  10. [Leetcode] spiral matrix ii 螺旋矩阵