我最近在做一个自然语言处理的作业,词性标注

首先对词性标注的数据集进行处理

直接上代码,我再解释一下

# -*- coding: utf-8 -*-import nltkdef trans_chaToNum(tagged):pred = []for tag in tagged:result = tag[1]pred.append(result)# 2.把字符编号,不同的字符对应不同的编号mylist = set(pred)mylist = list(mylist)Pred = {}for i in range(len(mylist)):Pred[mylist[i]] = i# 3.把刚刚那个形式里面的字符都替换成 编号trans_pred = []for i in pred:trans_pred.append(Pred[i])return Pred, trans_predif __name__ == '__main__':A = open('D:/pythonProject/CwsPosNerCNNRNNLSTM-master/CwsPosNerCNNRNNLSTM-master/traindata.txt', "r",encoding='utf-8').readlines()tagged_sent = []  # [('to', 'TO'), ('hold', 'VB'), ('on', 'RP'), ('to', 'TO'), ('its', 'PRP$'), ('paper', 'NN'), ('.', '.')]for a in A:sent = a.split()  # ['./.']for item in sent:pair = nltk.str2tuple(item)  # ('.', '.')tagged_sent.append(pair)tagged_dict, trans_tagged_sent = trans_chaToNum(tagged_sent)

我打开的赋给A的文件的样子长这样子:

这个格式就是: 英文词/词性

sent和pair的格式样子,已经在后面标好了

最后得到的tagged_sent的格式也已经在后面标好了

最后把这个格式送进 trans_chaToNum函数里面。

最后输出的结果是这样子的:

tagged_dict=

{'NNP': 0, 'CD': 1,..., 'VBG|NN': 45, 'RB|IN': 46, 'CC': 47,  'VBD': 51, 'EX': 52, 'NN|NNS': 53}

大致长这个样子,就是会把每个词性给编号,可以看到我这个数据集里面有53种词性,每个词性给予了自己的编号,包括标点符号也给编号了

trans_tagged_sent=

[0, 3, 41, 19, 49, 25, 30,...,19, 34, 25, 14]

把所有的前面的数据集的英文词 对应的 词性进行编号,因此这个list很长很长

NLP对数据集进行(词性标注):将所有的词性进行汇总并且编号;将所有的英文词对应的词性转换成编号,得到list相关推荐

  1. 系统学习NLP(十)--词性标注算法综述

    词性标注:将句子中兼类词的词性根据上下文唯一地确定下来.词性(part-of-speech)是词汇基本的语法属性,通常也称为词类.词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过 ...

  2. 自然语言处理NLP中文分词,词性标注,关键词提取和文本摘要

    NLP相关工具包的介绍 1.1 jieba "结巴"中文分词,理念是做最好的 Python 中文分词组件. 支持三种分词模式: (1)精确模式,试图将句子最精确地切开,适合文本分析 ...

  3. Dataset:数据集集合(NLP方向数据集)——常见的自然语言处理数据集大集合(建议收藏,持续更新)

    Dataset:数据集集合(NLP方向数据集)--常见的自然语言处理数据集大集合(建议收藏,持续更新) 目录 NLP数据集特点 常见的NLP数据集 1.生物数据集以及自然语言处理数据集 常见的使用案例 ...

  4. 自然语言处理NLP之分词、词性标注(POS)、组块分析(Chunking)、命名实体识别(Named Entity Recognition,简称NER)

    自然语言处理NLP之分词.词性标注(POS).组块分析(Chunking).命名实体识别(Named Entity Recognition,简称NER) 目录

  5. AI周报丨中国信息通信研究院发布《AI框架发展白皮书》;华为开源首个NLP中文数据集-悟空;AAAI2022年度论文公布。

    AI周报丨中国信息通信研究院发布<AI框架发展白皮书>:华为开源首个NLP中文数据集-悟空:AAAI2022最佳论文公布. 2022年2月22日 极链AI云 官网地址 点击注册 更多AI内 ...

  6. caffe 图片数据的转换成lmdb和数据集均值(转)

    转自网站: http://blog.csdn.net/muyiyushan/article/details/70578077 1.准备数据 使用dog/cat数据集,在训练项目根目录下分别建立trai ...

  7. 将fer2013转成图片,删选图片后生成新数据集(图像转换成像素值以csv存储)

    前段时间做实验涉及到将fer2013数据集,fer2013数据集中存在一些非人脸,标签错误的图像.为了提高实验准确性,我将fer2013转换成图片,进行筛选删除后,把新的数据集转换成跟fer2013格 ...

  8. 如何利用python将NWPU VHR-10目标检测遥感数据集的格式转换成VOC目标检测数据集的格式

    VOC目标检测数据集的格式 其中图片存放在JPEGImages文件夹中,标注是xml文件,存储在Annotations文件中 关于train集和val集的txt划分存放在ImageSets文件夹下面的 ...

  9. SSD学习系列(二)LMDB概念以及将VOC数据集转换成LMDB格式

    LMDB概念 接上一篇,将SSDa caffen框架代码编译通过后y,接下来就可以利用其脚本将标注好的VOC格式数据集转换成LMDB格式,以便开始SSD模型训练. LMDB是Lightning Mem ...

最新文章

  1. 英语教授一针见血:背熟这500个固定搭配,英语成绩随便上100
  2. 华为敏捷DevOps实践:如何从Excel管理软件的方式中走出来
  3. 实现DDD领域驱动设计: Part 4
  4. VS集成Qt开发入门(简易时间显示)
  5. [小技巧]diff的文件夹忽略使用方式
  6. (转)微服务架构 互联网保险O2O平台微服务架构设计
  7. 2FSK在瑞利衰落信道下的相干与非相干解调误码率-MATLAB基带仿真
  8. 电脑网线主要分类(网络传输介质)
  9. 八数码问题BFS算法
  10. c语言oct,【讨论】OCT扫描中的C-scan你知道吗????????
  11. 任务管理器中的PID是什么 怎么查看
  12. 关于NBIoT的知识
  13. 小程序sketch_第2部分sketch3d设计应用程序
  14. [计算机网络作业]第一章章节习题
  15. ubuntu下修改终端字体颜色以及terminator字体美化
  16. IP分片和TCP分段解析--之IP分片
  17. windows BitLocker对U盘加密过程
  18. ACL 2021 | ChineseBERT:香侬科技提出融合字形与拼音信息的中文预训练模型
  19. (附源码)php网上投票系统 毕业设计 121500
  20. 图论学习--6 平面图(思维导图)平面概念 对偶图 平面图嵌入算法

热门文章

  1. [附源码]计算机毕业设计JAVA网上点餐系统
  2. [BMC][IPMI] 快速理解 FRU 和 VPD
  3. Altium Designer(AD软件)如何导出gerber文件
  4. 栈和队列(超详细Java实现)
  5. python怎么编写视觉识别系统_视觉识别系统的制作方法
  6. 算数编码的原理及C++实现
  7. 关于GIS农垦国有土地权籍调查建库
  8. stm32f103vct6捕捉高低脉宽
  9. 数据寄存器多少位怎么算_2020新车购置税怎么算 新车购置税在哪交 新车购置税多少钱...
  10. swf文件加密基础(转)