Simplify the Usage of Lexicon in Chinese NER阅读笔记

基于之前Lattice LSTM的问题进行改进 Lattice LSTM虽然达到了SOTA 但是模型结构非常复杂限制了在工业上的应用这篇提出了一个简化且高效的模型融合了词汇信息到字编码中避免了复杂的序列建模结构而且对于任何神经NER模型只需要对字表示层进行微调来引入词汇信息

本文提出了两个方法后者为前者的优化

第一个方法构造exsoftword特征这种方法能保存所有可能的词典匹配的分词结果

{B, M , E, S, O}对应(begin, middle, end, single, other)

如上图以c7：西为例按BMESO的规则西只有中山西路（西为M）和山西（西为E）这两种表示所以构造出的exsoftword特征就是{M, E} 同理如果是c6：山那么就表示为{B, M, E}

但是这种方法有两个问题且没有继承LATTICELSTM的优点：

不能引入预训练的词向量因为转化为 BMESO表示
仍然损失了一些匹配结果的信息例如上图中 c5 c6 c7 c8构造出来的exsoftword特征就有两种情况中山山西中山西路和中山中山西山西路所以会损失信息

然后基于exsoftword 作者就提出了softlexicon方法来合并词典信息也就是改进版本

改进的方式：每个字符分配BMES 如果一个词是空的就以NONE字符表示

如上图这样对于c6：山表征方式就变成了

这样就可以利用预训练的词向量了而且这种方法能覆盖到字符的所有词

具体的input生成过程为：把每个字符的四种词集合压缩到一个固定的维度的向量

为了尽可能保留原始信息用concat拼接四套词的表征然后再加到字符表征中去

其中单字符的四个词集合中的每个集合也需要映射到一个固定维度向量使用的方法是 mean pooling和加权求和后者效果更好

加权求和的过程中权值是由词频决定的但是当两个词中有字符重叠时频率不增加（其实感觉这个实现还挺难的）比如南京和南京市当计算南京市长江大桥的词频时南京的词频就不增加因为南京和南京市重叠这样就可以避免短字的频率总是大于他的长字的频率的问题

然后看整体模型结构：

在softlexicon后 concat 然后接常规的encoding层这里包括bilstm cnn transformer 这篇论文利用的是单层的bilstm 然后接crf

实验结果：推理速度提升了六倍多

效果没有很突出

Simplify the Usage of Lexicon in Chinese NER阅读笔记相关推荐

中文NER1 之 simplify the usage of Lexicon in Chinese NER
中文NER1 之 simplify the usage of Lexicon in Chinese NER ACL-simplify the usage of Lexicon in Chinese N ...
MulDA: A Multilingual Data Augmentation Framework for Low-Resource Cross-Lingual NER 阅读笔记
MulDA: A Multilingual Data Augmentation Framework for Low-Resource Cross-Lingual NER 2021 Associatio ...
论文阅读笔记-FLAT: Chinese NER using Flat-Lattice Transformer
论文地址:https://arxiv.org/pdf/2004.11795.pdf github地址:https://github.com/LeeSureman/Flat-Lattice-Transf ...
论文阅读笔记-FGN: Fusion Glyph Network for Chinese Named Entity Recognition
论文地址:paper:https://arxiv.org/ftp/arxiv/papers/2001/2001.05272.pdf github地址:github:https://github.com ...
源码阅读笔记 BiLSTM+CRF做NER任务流程图
源码阅读笔记 BiLSTM+CRF做NER任务(二) 源码地址:https://github.com/ZhixiuYe/NER-pytorch 本篇正式进入源码的阅读,按照流程顺序,一一解剖. 一.流 ...
文献阅读笔记-CSC-数据集-A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check
A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check 文献阅读笔记论文相关信息: EMNLP-201 ...
论文复现_1：Chinese NER Using Lattice LSTM
论文重新读. gate recurrent cell:门控递归单元使我们的模型能够从一个句子中选择最相关的字符和单词,以获得更好的NER结果. Lattice LSTM:格子LSTM 实体识别可以看为 ...
论文阅读《FLAT：Chinese NER Using Flat-Lattice Transformer》
总结 flat的源码你确定你能看懂??各种调库的操作对小白也太不友好了吧~ 本博客分成两部分,第一部分(part1)主要描述了一下复现flat可以参考的文档,数据集等:第二部分(part2)主要讲了论 ...
FLAT：Chinese NER Using Flat-Lattice Transformer
摘要近年来,汉字lattice结构被证明是一种有效的中文命名实体识别方法.然而,由于网格结构的复杂性和动态性,现有的基于网格的模型难以充分利用gpu的并行计算能力,推理速度通常较低.在本文中,我们提 ...

Simplify the Usage of Lexicon in Chinese NER阅读笔记

Simplify the Usage of Lexicon in Chinese NER阅读笔记相关推荐

最新文章

热门文章