©PaperWeekly 原创 · 作者 | 宁金忠

学校 | 大连理工大学博士生

研究方向 | 信息抽取

近年来,向模型中注入词汇信息进行词汇增强已经成为一种有效提升中文 NER 性能的方式。本文分享一篇新鲜出炉的来自 ACL 2021 的文章《Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter》。该论文所提的模型除了屠榜中文 NER,还屠榜了中文分词和中文词性标注等任务,本文重点关注中文 NER 任务。

论文标题:

Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter

收录会议:

ACL 2021

论文链接:

https://arxiv.org/abs/2105.07148

代码链接:

https://github.com/liuwei1206/LEBERT

大部分现有的中文 NER 词汇增强方法只在 encode 部分末端的浅层序列模型中引入词汇信息,并没有把词汇信息注入到 BERT 底层。有些小伙伴可能想到《Lex-BERT : Enhancing BERT based NER with lexicons》这篇论文也把词汇信息引入到了 BERT 的底层部分。

Lex-BERT 需要引入实体类型信息,因此依赖于带有实体类型信息的高质量词表,而 FLAT,Lattice lstm 等方法只需要用到词向量信息。论文具体内容介绍大家可以去阅读知乎 @JayJay 大神的文章:

https://zhuanlan.zhihu.com/p/374720213

该文章提出了一个名叫 LEBERTLexicon Enhanced BERT)的模型来解决中文序列标注任务。相比于 FLAT,Lattice LSTM 等方法,LEBERT 把词汇信息融入到了 BERT 底层的编码过程中。相比于 Lex-BERT,LEBERT 无需包含词汇类型信息的词典,只需要普通的词向量即可。实验结果表明,该模型在多个中文序列标注任务上取得了 state-of-the-art 结果。

前情回顾

1.1 词增强

中文 NER 的词汇增强主要分为两条路线:

(1)Dynamic Architecture:通过动态结构,在模型中注入词汇信息。

(2)Adaptive Embedding:将词汇信息融合到 Embeding 中。

近些年来各大顶会上的中文 NER 词汇增强相关论文总结如下(参考博文):

https://zhuanlan.zhihu.com/p/142615620

其具体实现方法总结为:

1.2 FLAT

上图为各种词增强 NER 模型的性能展示,可以看出 FLAT 自诞生以来,一直保持着地表最强词增强中文 NER 模型的称号。

FLAT 的模型结构如上图所示,模型的设计特别简单巧妙。其 token 包含原句中的character 以及匹配到的词 word。对于每个 character 和 word,作者分别使用头编号 Head 和尾编号 Tail 来编码其位置。作者把四种相对距离 融合进其设计的相对位置编码当中,之后计算每两个 token 之间的注意力值。FLAT 模型有以下几点优势:

  • 其使用的位置编码方式集合外加的词汇边界信息可以提高模型对实体边界的识别效果。

  • 模型使用了词汇的词向量,可以提高模型对实体类别的识别能力。

  • 模型运算效率很高

论文模型介绍

和BERT相比,LEBERT主要做出了两点改进:

  • LEBERT 采用了句子中的的字符-词语对(论文中叫做 Char-Words Pair,具体介绍见后文)的特征作为输入;

  • 通过作者设计的 lexicon adapter,在 BERT 的中间某一层注入词汇特征。

2.1 Char-Words Pair Sequence

首先,对于给定的中文句子






































,利用词典 D 匹配出句子中包含的潜在词汇。然后,在匹配到的这些词汇中,每个字符和包含该字符的词汇组成词汇对,表示为 ,其中









表示句子中第 i 个字符,










表示包含的词汇组成的集合。上图为构建 Char-Words Pair Sequence 的示例。

2.2 Lexicon Adapter

将输入数据构建成 Char-Words Pair Sequence 形式之后,句子中的每个位置包含了字符特征和词汇特征。为了把词汇特征注入到 BERT 当中,作者设计了 Lexicon Adapter。

Lexicon Adapter 的输入为 Char-Words Pair Sequence:










。Char-Words Pair Sequence 中第 i 个位置的 char-words pair 表示为



























,其中












是第 i 个位置的字符特征,该特征是 BERT 中某个 Transformer 层的输出。 为第 i 个位置的字符对应的词汇的词向量。

作者对 Char-Words Pair 中的词向量使用非线性变换和字符向量进行维度对齐:,其中







































































为字符特征的维度,









为词向量的维度。

对于 Char-Words Pair Sequence 中的第 i 个位置,进行维度变换后的词向量的集合为:

作者使用了注意力机制对









进行中的 m 个词向量进行融合。以












为 query 向量,与其对应的词向量集合









为 value,使用双线性变换矩阵计算相似度得分得到:

之后,利用相似度得分对









进行加权求和得到融合后的词特征:

最后,把字符特征和融合后的词特征相加得到:

上述过程作者总结为下图:

2.3 Lexicon Enhanced BERT

LEBERT 结构图上图所示,其可以看做是 Lexicon Adapter 和 BERT 的组合,其中 Lexicon Adapter 应用到了 BERT 当中的某一个 Transformer 层。

对于给定的中文






































,将其构建成 character-words pair sequence 形式

































输入到 BERT 的 Input Embedder  当中,得到输出

































之后,将 E 输入到 BERT 中的 Transformer encoder 当中,每个 Transformer encoder 表示为如下形式:

之后,通过 Lexicon Adapter 把词汇信息注入到第 k 层和第 k+1 层 Transformer 层之间。第 k 层 Transformer 层的输出为 。将其中的每一个 Char-Words Pair



























利用 Lexicon Adapter 进行转换得到:

然后将注入词汇信息的特征向量输出入到余下的 L-k 个 Transformer 层中。

2.4 Training and Decoding

作者在之前的基础上加了一个线性变换层和 CRF 层来进行标签解码。

实验结果展示

LEBERT 在中文 NER 数据集上的实验结果如上图所示。可以看出,LEBERT 的性能超过目前最先进的词增强 NER 模型(表格前 6 行)以及引入词典信息的预训练模型(ERINE,ZEN)。

上图说明 LEBERT 中引入词汇信息的方式可以有效提高模型对实体边界和类型的识别性能。

总结

LEBERT 方法在 BERT 底层注入词汇信息,可以高效地进行词增强。实验结果表明,该模型在中文序列标注任务中取得了很好的性能。

参考文献

[1] FLAT: Chinese NER Using Flat-Lattice Transformer

[2] Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter

更多阅读

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

​中文NER最新屠榜力作——LEBERT相关推荐

  1. DINO:目标检测benchmark COCO屠榜的正确姿势

    作者丨陈泰红(已授权) 来源丨https://zhuanlan.zhihu.com/p/478461226 编辑丨极市平台 不小心在paperwithcode看到,DETR系列的论文又屠榜了,在COC ...

  2. FLAT:中文NER屠榜之作!

    文 | JayLou娄杰 编 | YY 近年来,引入词汇信息逐渐成为提升中文NER指标的重要手段.ACL2020中一篇来自复旦大学邱锡鹏老师团队的 FLAT: Chinese NER Using Fl ...

  3. LEBERT:基于词汇增强的中文NER模型

    01 任务概述 命名实体识别(简称NER)是NLP中的经典任务,即给定一个输入文本,让模型识别出文本中的实体信息. 在中文NER任务中,可以分为 Character-based (字符粒度) 和 Wo ...

  4. 处理器最新排行_CPU跑分工具CINBENCH R23排行榜出炉:AMD锐龙单核、多核均屠榜

    原标题:CPU跑分工具CINBENCH R23排行榜出炉:AMD锐龙单核.多核均屠榜 CPU跑分工具CINBENCH R23排行榜出炉:AMD锐龙单核.多核均屠榜 2020-11-13 23:03:1 ...

  5. 中文NER涨点神器!基于多元数据的双流Transformer编码模型

    ©PaperWeekly 原创 · 作者 | 宁金忠 学校 | 大连理工大学博士生 研究方向 | 信息抽取 本篇论文发表于 ACL 2021,作者聚焦于中文 NER 任务.近些年来,在模型中引入词汇信 ...

  6. NeurIPS 2019揭榜!华人作者贡献42%,谷歌170篇屠榜;国内清华第一,腾讯领衔产业界(附链接)...

    本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处 本文约2900字,建议阅读6分钟. AI科研决战揭榜! 一年一度,AI科研华山论剑. 只是2019年NeurIPS,决战 ...

  7. 5300亿参数,SOTA屠榜!最大NLP预训练模型新王登基,微软英伟达联手称霸

    来自:新智元 [导读]微软和英伟达联合发布了迄今为止最大.最强的人工智能语言模型:Megatron-Turing自然语言生成模型(MT-NLG).其包含5300亿个参数,在一系列自然语言任务包括阅读理 ...

  8. NeurIPS 2019放榜:华人作者贡献42%,谷歌170篇屠榜;国内清华第一,腾讯领衔产业界...

    李根 一璞 乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI 一年一度,AI科研华山论剑. 只是2019年NeurIPS,决战之巅选在了加拿大温哥华. NeurIPS,全称Conferen ...

  9. 中文NER任务实验小结:BERT-MRC的再优化

    ©作者 | 邱震宇 单位 | 华泰证券算法工程师 研究方向 | NLP方向 前言 熟悉我的读者,应该看过我之前写过的一篇关于中文 NER 任务实践的文章(邱震宇:中文 NER 任务实验小结报告--深入 ...

最新文章

  1. 静态方法只能通过类名调用吗?
  2. 第七周项目三-用多文件组织多个类的程序
  3. 通过指针便利图像元素
  4. [转]如何进行单元测试
  5. Javascript中的null、undefined、NaN
  6. leetcode 172. Factorial Trailing Zeroes(阶乘的末尾有多少个0)
  7. 阿里云Kubernetes SpringCloud 实践进行时(5): 弹性服务与容错处理
  8. java之struts2之类型转换
  9. Python3学习笔记-字符串和字符串操作
  10. 前端开发-MongoDB快速掌握上手知识总结
  11. threejs 管子_使用webgl(three.js)搭建一个3D智慧园区、3D建筑,3D消防模拟,web版3D,bim管理系统——第四课...
  12. 为什么叫区块链存储?兼谈IPFSFilecoin, Chia
  13. 第13届中国生物特征识别大会即将盛大开幕,中科博宏期待您的到来!
  14. python+大数据之数据可视化完整版
  15. 如何关闭台式计算机,台式机如何关闭显示器
  16. 大学物理(上)期中考试参考答案
  17. Web全栈~26.IO
  18. 边缘计算,是在炒概念吗?
  19. BZOJ 4605 崂山白花蛇草水 权值线段树+K-D树
  20. Sql Server 和 Access 操作数据库结构Sql语句

热门文章

  1. web前端入门到实战:CSS新属性实现特殊的图片显示效果
  2. 快手直播间如何引流?快手直播推广怎么玩?
  3. 机器学习中的正则化——L1范数和L2范数
  4. html font-family设置无效,HTML+CSS入门 CSS设置中文字体(font-family:黑体)后样式失效问题如何解决...
  5. Android定位实现
  6. java清洁之道_代码整洁之道(1)
  7. unity HTC vive开发笔记二
  8. 微信小程序:uni-app框架
  9. HashMap 的7种遍历方式
  10. 优雅的遍历HashMap-要的就是骚气