动手实践bert+BiLstm+crf

网上大部分都是使用ChinaPeoplesDailyNerCorpus语料做的，真正应用到自已的语料和需求中还是有一些坑，这里整理记录一下

首先明确语料需要处理成什么格式，贴图理解一下

这里面需要搞清楚几点，我们的语料最小粒度是字级别的，然后每句话结束会有一个空行（当年踩过的坑），后面的标记简单科普一下，专业人士直接跳过，大O表示非实体，B-ORD表示机构开头第一个字，I-ORD表示中间，有些预料可能会有结束标记，这里只使用了开头和中间，当然你可能还需要识别人名（B-PER, I-PER），地名(B-LOC, I-LOC)，同理。

接下来就要考虑如何将一段话或者一篇文章处理成这种格式了
这里参考了一篇文章https://www.cnblogs.com/combfish/p/7830807.html其中的代码直接贴在下面了，不想看的可以直接跳过看后面分析

import re# txt2ner_train_data turn label str into ner trainable data
# s :labeled str  eg.'我来到[@1999年#YEAR*]的[@上海#LOC*]的[@东华大学#SCHOOL*]'
# save_path: ner_trainable_txt name
def str2ner_train_data(s,save_path):ner_data = []result_1 = re.finditer(r'\[\@', s)result_2 = re.finditer(r'\*\]', s)begin = []end = []for each in result_1:begin.append(each.start())for each in result_2:end.append(each.end())assert len(begin) == len(end)i = 0j = 0while i < len(s):if i not in begin:ner_data.append([s[i], 0])i = i + 1else:ann = s[i + 2:end[j] - 2]entity, ner = ann.rsplit('#')if (len(entity) == 1):ner_data.append([entity, 'S-' + ner])else:if (len(entity) == 2):ner_data.append([entity[0], 'B-' + ner])ner_data.append([entity[1], 'E-' + ner])else:ner_data.append([entity[0], 'B-' + ner])for n in range(1, len(entity) - 1):ner_data.append([entity[n], 'I-' + ner])ner_data.append([entity[-1], 'E-' + ner])i = end[j]j = j + 1f = open(save_path, 'w', encoding='utf-8')for each in ner_data:f.write(each[0] + ' ' + str(each[1]))f.write('\n')f.close()
# txt2ner_train_data turn label str into ner t

动手实践bert+BiLstm+crf相关推荐

bert+crf可以做NER，那么为什么还有bert+bi-lstm+crf ?
我在自己人工标注的一份特定领域的数据集上跑过,加上bert确实会比只用固定的词向量要好一些,即使只用BERT加一个softmax层都比不用bert的bilstm+crf强.而bert+bilstm+c ...
基于BERT+BiLSTM+CRF的中文景点命名实体识别
赵平, 孙连英, 万莹, 葛娜. 基于BERT+BiLSTM+CRF的中文景点命名实体识别. 计算机系统应用, 2020, 29(6): 169-174.http://www.c-s-a.org.cn ...
Bert+BiLSTM+CRF实体抽取
文章目录一.环境二.预训练词向量三.模型 1.BiLSTM - 不使用预训练字向量 - 使用预训练字向量 2.CRF 3.BiLSTM + CRF - 不使用预训练词向量 - 使用预训练词向量 ...
基于BERT+BiLSTM+CRF模型与新预处理方法的古籍自动标点
摘要古文相较于现代文不仅在用词.语法等方面存在巨大差异,还缺少标点,使人难以理解语义.采用人工方式对古文进行标点既需要有较高的文学水平,还需要对历史文化有一定了解.为提高古文自动标点的准确率,将深层 ...
信息抽取实战：命名实体识别NER【ALBERT+Bi-LSTM模型 vs. ALBERT+Bi-LSTM+CRF模型】（附代码）
实战:命名实体识别NER 目录实战:命名实体识别NER 一.命名实体识别(NER) 二.BERT的应用 NLP基本任务查找相似词语提取文本中的实体问答中的实体对齐三.ALBERT ALBER ...
bert pytorch 序列标注_序列标注：Bi-LSTM + CRF
最近在做序列标注的相关任务,为了理解bi-lstm + crf的原理及细节,找了很多相关资料,以及代码实现,这里分享给大家并附上一些自己的理解. CRF 相关资料推荐关于crf,我看了很多资料,这里 ...
BiLSTM+CRF医学病例命名实体识别项目
向AI转型的程序员都关注了这个号???????????? 人工智能大数据与深度学习公众号:datayx 数据来自CCKS2018的电子病历命名实体识别的评测任务,是对于给定的一组电子病历纯文本文档 ...
NLP工具包(Albert+BiLSTM+CRF）
向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程公众号:datayx 一.简介 Macropodus自然语言处理工具(Albert+BiLSTM+CRF) 中文分词 ...
【项目实战课】基于BiLSTM+CRF的命名实体识别实战
欢迎大家来到我们的项目实战课,本期内容是<基于BiLSTM+CRF的命名实体识别实战>.所谓项目课,就是以简单的原理回顾+详细的项目实战的模式,针对具体的某一个主题,进行代码级的实战讲解. ...
NLP（二十五）实现ALBERT+Bi-LSTM+CRF模型
在文章NLP(二十四)利用ALBERT实现命名实体识别中,笔者介绍了ALBERT+Bi-LSTM模型在命名实体识别方面的应用. 在本文中,笔者将介绍如何实现ALBERT+Bi-LSTM+CRF ...

动手实践bert+BiLstm+crf

动手实践bert+BiLstm+crf相关推荐

最新文章

热门文章