Simplify the Usage of Lexicon in Chinese NER阅读笔记
基于之前Lattice LSTM的问题进行改进 Lattice LSTM虽然达到了SOTA 但是模型结构非常复杂 限制了在工业上的应用 这篇提出了一个简化且高效的模型 融合了词汇信息到字编码中 避免了复杂的序列建模结构 而且对于任何神经NER模型 只需要对字表示层进行微调来引入词汇信息
本文提出了两个方法 后者为前者的优化
第一个方法 构造exsoftword特征 这种方法能保存所有可能的词典匹配的分词结果
{B, M , E, S, O}对应(begin, middle, end, single, other)
如上图 以c7:西 为例 按BMESO的规则 西只有中山西路(西为M)和 山西(西为E)这两种表示所以构造出的exsoftword特征就是{M, E} 同理 如果是c6:山 那么就表示为{B, M, E}
但是这种方法有两个问题 且没有继承LATTICELSTM的优点:
- 不能引入预训练的词向量 因为转化为 BMESO表示
- 仍然损失了一些匹配结果的信息 例如上图中 c5 c6 c7 c8构造出来的exsoftword特征就有两种情况 中山 山西 中山西路 和 中山 中山西 山西路 所以会损失信息
然后基于exsoftword 作者就提出了softlexicon方法来合并词典信息 也就是改进版本
改进的方式:每个字符分配BMES 如果一个词是空的就以NONE字符表示
如上图 这样对于c6:山 表征方式就变成了
这样就可以利用预训练的词向量了 而且这种方法能覆盖到字符的所有词
具体的input生成过程为:把每个字符的四种词集合 压缩到一个固定的维度的向量
为了尽可能保留原始信息 用concat拼接四套词的表征 然后再加到字符表征中去
其中单字符的四个词集合中的每个集合 也需要映射到一个固定维度向量 使用的方法是 mean pooling和加权求和 后者效果更好
加权求和的过程中 权值是由词频决定的 但是当两个词中有字符重叠时 频率不增加(其实感觉这个实现还挺难的) 比如南京和南京市 当计算南京市长江大桥的词频时 南京的词频就不增加 因为南京和南京市重叠 这样就可以避免短字的频率总是大于他的长字的频率的问题
然后看整体模型结构:
在softlexicon后 concat 然后接常规的encoding层 这里包括bilstm cnn transformer 这篇论文利用的是单层的bilstm 然后接crf
实验结果:推理速度提升了六倍多
效果没有很突出
Simplify the Usage of Lexicon in Chinese NER阅读笔记相关推荐
- 中文NER1 之 simplify the usage of Lexicon in Chinese NER
中文NER1 之 simplify the usage of Lexicon in Chinese NER ACL-simplify the usage of Lexicon in Chinese N ...
- MulDA: A Multilingual Data Augmentation Framework for Low-Resource Cross-Lingual NER 阅读笔记
MulDA: A Multilingual Data Augmentation Framework for Low-Resource Cross-Lingual NER 2021 Associatio ...
- 论文阅读笔记-FLAT: Chinese NER using Flat-Lattice Transformer
论文地址:https://arxiv.org/pdf/2004.11795.pdf github地址:https://github.com/LeeSureman/Flat-Lattice-Transf ...
- 论文阅读笔记-FGN: Fusion Glyph Network for Chinese Named Entity Recognition
论文地址:paper:https://arxiv.org/ftp/arxiv/papers/2001/2001.05272.pdf github地址:github:https://github.com ...
- 源码阅读笔记 BiLSTM+CRF做NER任务 流程图
源码阅读笔记 BiLSTM+CRF做NER任务(二) 源码地址:https://github.com/ZhixiuYe/NER-pytorch 本篇正式进入源码的阅读,按照流程顺序,一一解剖. 一.流 ...
- 文献阅读笔记-CSC-数据集-A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check
A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check 文献阅读笔记 论文相关信息: EMNLP-201 ...
- 论文复现_1:Chinese NER Using Lattice LSTM
论文重新读. gate recurrent cell:门控递归单元使我们的模型能够从一个句子中选择最相关的字符和单词,以获得更好的NER结果. Lattice LSTM:格子LSTM 实体识别可以看为 ...
- 论文阅读《FLAT:Chinese NER Using Flat-Lattice Transformer》
总结 flat的源码你确定你能看懂??各种调库的操作对小白也太不友好了吧~ 本博客分成两部分,第一部分(part1)主要描述了一下复现flat可以参考的文档,数据集等:第二部分(part2)主要讲了论 ...
- FLAT:Chinese NER Using Flat-Lattice Transformer
摘要 近年来,汉字lattice结构被证明是一种有效的中文命名实体识别方法.然而,由于网格结构的复杂性和动态性,现有的基于网格的模型难以充分利用gpu的并行计算能力,推理速度通常较低.在本文中,我们提 ...
最新文章
- linux存储--inode与block详解(七)
- Html 教程 (1)简介
- ecmobile实现支付宝支付和百度云推送遇到的问题及解决方案(android)
- 计算机基本的应用是,计算机统考应用基础练习题
- 1.4. Open Source and License
- Microsoft Enterprise Library 5.0 系列(二) Cryptography Application Block (初级)
- ssas脚本组织程序_脚本调试编辑
- 使用 Gitolite 搭建 Git 服务器
- Java求解自由落体相关问题
- 将c编译成.so 并调用(ubuntu)
- oracle查询根据条件赋值,Oracle条件语句
- 一带一路专题:农业、经济、地理距离、友好城市等七大维度面板数据
- 情人节神奇的传情之物,“懂爱”的你都会爱上它丨情人节系列
- [2017湖南集训7-8]暗牧 虚树+最短路
- com.android.provision基本介绍
- 还在用手机搜题?懒人必备网页搜题插件来了
- 《电子元器件的可靠性》——2.5节威布尔分布及其概率纸的结构和用法
- 神经网络主要有三个基本要素:权重、偏置和激活函数
- onNewIntent与singleTask
- Python3 os.mkfifo() 方法、Python3 os.removedirs() 方法
热门文章
- 三星 gear 刷 Android,【干货】三星Gear S3/Gear S3 classic 智能手表刷机教程
- Android开发自学笔记(Android Studio)—4.4 AdapterView及其子类
- auto和decltype的区别
- UDS 升级基础知识
- myeclipse破解文件不成功的解决办法,cracker.jar
- Ansible-python
- linux操作系统中业务程序及服务的开机启动
- Android应用权限大全
- idea的setting界面怎么进_PDF文件怎么转换成JPG?PDF转JPG免费转换软件怎么用?
- cocos creator 划动屏幕以移动摄像机