NLP对数据集进行(词性标注):将所有的词性进行汇总并且编号;将所有的英文词对应的词性转换成编号,得到list
我最近在做一个自然语言处理的作业,词性标注
首先对词性标注的数据集进行处理
直接上代码,我再解释一下
# -*- coding: utf-8 -*-import nltkdef trans_chaToNum(tagged):pred = []for tag in tagged:result = tag[1]pred.append(result)# 2.把字符编号,不同的字符对应不同的编号mylist = set(pred)mylist = list(mylist)Pred = {}for i in range(len(mylist)):Pred[mylist[i]] = i# 3.把刚刚那个形式里面的字符都替换成 编号trans_pred = []for i in pred:trans_pred.append(Pred[i])return Pred, trans_predif __name__ == '__main__':A = open('D:/pythonProject/CwsPosNerCNNRNNLSTM-master/CwsPosNerCNNRNNLSTM-master/traindata.txt', "r",encoding='utf-8').readlines()tagged_sent = [] # [('to', 'TO'), ('hold', 'VB'), ('on', 'RP'), ('to', 'TO'), ('its', 'PRP$'), ('paper', 'NN'), ('.', '.')]for a in A:sent = a.split() # ['./.']for item in sent:pair = nltk.str2tuple(item) # ('.', '.')tagged_sent.append(pair)tagged_dict, trans_tagged_sent = trans_chaToNum(tagged_sent)
我打开的赋给A的文件的样子长这样子:
这个格式就是: 英文词/词性
sent和pair的格式样子,已经在后面标好了
最后得到的tagged_sent的格式也已经在后面标好了
最后把这个格式送进 trans_chaToNum函数里面。
最后输出的结果是这样子的:
tagged_dict=
{'NNP': 0, 'CD': 1,..., 'VBG|NN': 45, 'RB|IN': 46, 'CC': 47, 'VBD': 51, 'EX': 52, 'NN|NNS': 53}
大致长这个样子,就是会把每个词性给编号,可以看到我这个数据集里面有53种词性,每个词性给予了自己的编号,包括标点符号也给编号了
trans_tagged_sent=
[0, 3, 41, 19, 49, 25, 30,...,19, 34, 25, 14]
把所有的前面的数据集的英文词 对应的 词性进行编号,因此这个list很长很长
NLP对数据集进行(词性标注):将所有的词性进行汇总并且编号;将所有的英文词对应的词性转换成编号,得到list相关推荐
- 系统学习NLP(十)--词性标注算法综述
词性标注:将句子中兼类词的词性根据上下文唯一地确定下来.词性(part-of-speech)是词汇基本的语法属性,通常也称为词类.词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过 ...
- 自然语言处理NLP中文分词,词性标注,关键词提取和文本摘要
NLP相关工具包的介绍 1.1 jieba "结巴"中文分词,理念是做最好的 Python 中文分词组件. 支持三种分词模式: (1)精确模式,试图将句子最精确地切开,适合文本分析 ...
- Dataset:数据集集合(NLP方向数据集)——常见的自然语言处理数据集大集合(建议收藏,持续更新)
Dataset:数据集集合(NLP方向数据集)--常见的自然语言处理数据集大集合(建议收藏,持续更新) 目录 NLP数据集特点 常见的NLP数据集 1.生物数据集以及自然语言处理数据集 常见的使用案例 ...
- 自然语言处理NLP之分词、词性标注(POS)、组块分析(Chunking)、命名实体识别(Named Entity Recognition,简称NER)
自然语言处理NLP之分词.词性标注(POS).组块分析(Chunking).命名实体识别(Named Entity Recognition,简称NER) 目录
- AI周报丨中国信息通信研究院发布《AI框架发展白皮书》;华为开源首个NLP中文数据集-悟空;AAAI2022年度论文公布。
AI周报丨中国信息通信研究院发布<AI框架发展白皮书>:华为开源首个NLP中文数据集-悟空:AAAI2022最佳论文公布. 2022年2月22日 极链AI云 官网地址 点击注册 更多AI内 ...
- caffe 图片数据的转换成lmdb和数据集均值(转)
转自网站: http://blog.csdn.net/muyiyushan/article/details/70578077 1.准备数据 使用dog/cat数据集,在训练项目根目录下分别建立trai ...
- 将fer2013转成图片,删选图片后生成新数据集(图像转换成像素值以csv存储)
前段时间做实验涉及到将fer2013数据集,fer2013数据集中存在一些非人脸,标签错误的图像.为了提高实验准确性,我将fer2013转换成图片,进行筛选删除后,把新的数据集转换成跟fer2013格 ...
- 如何利用python将NWPU VHR-10目标检测遥感数据集的格式转换成VOC目标检测数据集的格式
VOC目标检测数据集的格式 其中图片存放在JPEGImages文件夹中,标注是xml文件,存储在Annotations文件中 关于train集和val集的txt划分存放在ImageSets文件夹下面的 ...
- SSD学习系列(二)LMDB概念以及将VOC数据集转换成LMDB格式
LMDB概念 接上一篇,将SSDa caffen框架代码编译通过后y,接下来就可以利用其脚本将标注好的VOC格式数据集转换成LMDB格式,以便开始SSD模型训练. LMDB是Lightning Mem ...
最新文章
- 英语教授一针见血:背熟这500个固定搭配,英语成绩随便上100
- 华为敏捷DevOps实践:如何从Excel管理软件的方式中走出来
- 实现DDD领域驱动设计: Part 4
- VS集成Qt开发入门(简易时间显示)
- [小技巧]diff的文件夹忽略使用方式
- (转)微服务架构 互联网保险O2O平台微服务架构设计
- 2FSK在瑞利衰落信道下的相干与非相干解调误码率-MATLAB基带仿真
- 电脑网线主要分类(网络传输介质)
- 八数码问题BFS算法
- c语言oct,【讨论】OCT扫描中的C-scan你知道吗????????
- 任务管理器中的PID是什么 怎么查看
- 关于NBIoT的知识
- 小程序sketch_第2部分sketch3d设计应用程序
- [计算机网络作业]第一章章节习题
- ubuntu下修改终端字体颜色以及terminator字体美化
- IP分片和TCP分段解析--之IP分片
- windows BitLocker对U盘加密过程
- ACL 2021 | ChineseBERT:香侬科技提出融合字形与拼音信息的中文预训练模型
- (附源码)php网上投票系统 毕业设计 121500
- 图论学习--6 平面图(思维导图)平面概念 对偶图 平面图嵌入算法
热门文章
- [附源码]计算机毕业设计JAVA网上点餐系统
- [BMC][IPMI] 快速理解 FRU 和 VPD
- Altium Designer(AD软件)如何导出gerber文件
- 栈和队列(超详细Java实现)
- python怎么编写视觉识别系统_视觉识别系统的制作方法
- 算数编码的原理及C++实现
- 关于GIS农垦国有土地权籍调查建库
- stm32f103vct6捕捉高低脉宽
- 数据寄存器多少位怎么算_2020新车购置税怎么算 新车购置税在哪交 新车购置税多少钱...
- swf文件加密基础(转)