NLP对数据集进行（词性标注）：将所有的词性进行汇总并且编号；将所有的英文词对应的词性转换成编号，得到list

我最近在做一个自然语言处理的作业，词性标注

首先对词性标注的数据集进行处理

直接上代码，我再解释一下

# -*- coding: utf-8 -*-import nltkdef trans_chaToNum(tagged):pred = []for tag in tagged:result = tag[1]pred.append(result)# 2.把字符编号，不同的字符对应不同的编号mylist = set(pred)mylist = list(mylist)Pred = {}for i in range(len(mylist)):Pred[mylist[i]] = i# 3.把刚刚那个形式里面的字符都替换成 编号trans_pred = []for i in pred:trans_pred.append(Pred[i])return Pred, trans_predif __name__ == '__main__':A = open('D:/pythonProject/CwsPosNerCNNRNNLSTM-master/CwsPosNerCNNRNNLSTM-master/traindata.txt', "r",encoding='utf-8').readlines()tagged_sent = []  # [('to', 'TO'), ('hold', 'VB'), ('on', 'RP'), ('to', 'TO'), ('its', 'PRP$'), ('paper', 'NN'), ('.', '.')]for a in A:sent = a.split()  # ['./.']for item in sent:pair = nltk.str2tuple(item)  # ('.', '.')tagged_sent.append(pair)tagged_dict, trans_tagged_sent = trans_chaToNum(tagged_sent)

我打开的赋给A的文件的样子长这样子：

这个格式就是：英文词/词性

sent和pair的格式样子，已经在后面标好了

最后得到的tagged_sent的格式也已经在后面标好了

最后把这个格式送进 trans_chaToNum函数里面。

最后输出的结果是这样子的：

tagged_dict=

{'NNP': 0, 'CD': 1,..., 'VBG|NN': 45, 'RB|IN': 46, 'CC': 47, 'VBD': 51, 'EX': 52, 'NN|NNS': 53}

大致长这个样子，就是会把每个词性给编号，可以看到我这个数据集里面有53种词性，每个词性给予了自己的编号，包括标点符号也给编号了

trans_tagged_sent=

[0, 3, 41, 19, 49, 25, 30,...,19, 34, 25, 14]

把所有的前面的数据集的英文词对应的词性进行编号，因此这个list很长很长

NLP对数据集进行（词性标注）：将所有的词性进行汇总并且编号；将所有的英文词对应的词性转换成编号，得到list相关推荐

系统学习NLP（十）--词性标注算法综述
词性标注:将句子中兼类词的词性根据上下文唯一地确定下来.词性(part-of-speech)是词汇基本的语法属性,通常也称为词类.词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过 ...
自然语言处理NLP中文分词，词性标注，关键词提取和文本摘要
NLP相关工具包的介绍 1.1 jieba "结巴"中文分词,理念是做最好的 Python 中文分词组件. 支持三种分词模式: (1)精确模式,试图将句子最精确地切开,适合文本分析 ...
Dataset：数据集集合(NLP方向数据集)——常见的自然语言处理数据集大集合(建议收藏，持续更新)
Dataset:数据集集合(NLP方向数据集)--常见的自然语言处理数据集大集合(建议收藏,持续更新) 目录 NLP数据集特点常见的NLP数据集 1.生物数据集以及自然语言处理数据集常见的使用案例 ...
自然语言处理NLP之分词、词性标注（POS）、组块分析（Chunking）、命名实体识别（Named Entity Recognition，简称NER）
自然语言处理NLP之分词.词性标注(POS).组块分析(Chunking).命名实体识别(Named Entity Recognition,简称NER) 目录
AI周报丨中国信息通信研究院发布《AI框架发展白皮书》；华为开源首个NLP中文数据集-悟空；AAAI2022年度论文公布。
AI周报丨中国信息通信研究院发布<AI框架发展白皮书>:华为开源首个NLP中文数据集-悟空:AAAI2022最佳论文公布. 2022年2月22日极链AI云官网地址点击注册更多AI内 ...
caffe 图片数据的转换成lmdb和数据集均值（转）
转自网站: http://blog.csdn.net/muyiyushan/article/details/70578077 1.准备数据使用dog/cat数据集,在训练项目根目录下分别建立trai ...
将fer2013转成图片，删选图片后生成新数据集（图像转换成像素值以csv存储）
前段时间做实验涉及到将fer2013数据集,fer2013数据集中存在一些非人脸,标签错误的图像.为了提高实验准确性,我将fer2013转换成图片,进行筛选删除后,把新的数据集转换成跟fer2013格 ...
如何利用python将NWPU VHR-10目标检测遥感数据集的格式转换成VOC目标检测数据集的格式
VOC目标检测数据集的格式其中图片存放在JPEGImages文件夹中,标注是xml文件,存储在Annotations文件中关于train集和val集的txt划分存放在ImageSets文件夹下面的 ...
SSD学习系列（二）LMDB概念以及将VOC数据集转换成LMDB格式
LMDB概念接上一篇,将SSDa caffen框架代码编译通过后y,接下来就可以利用其脚本将标注好的VOC格式数据集转换成LMDB格式,以便开始SSD模型训练. LMDB是Lightning Mem ...

NLP对数据集进行（词性标注）：将所有的词性进行汇总并且编号；将所有的英文词对应的词性转换成编号，得到list

NLP对数据集进行（词性标注）：将所有的词性进行汇总并且编号；将所有的英文词对应的词性转换成编号，得到list相关推荐

最新文章

热门文章