def build_dataset(words):count = [['UNK', -1]]#collections.Counter(words).most_commoncount.extend(collections.Counter(words).most_common(vocabulary_size - 1))  # words中每个分词计数,然后按照词频降序排列放在count里:[['UNK', -1], ('的', 99229), ('在', 25925), ('是', 20172), ('年', 17007), ('和', 16514), ('为', 15231), ('了', 13053), ('有', 11253), ('与', 11194)]dictionary = dict()for word, _ in count:dictionary[word] = len(dictionary)                                     # count中每个词分配一个编号,:[('UNK', 0), ('的', 1), ('在', 2), ('是', 3), ('年', 4), ('和', 5), ('为', 6), ('了', 7), ('有', 8), ('与', 9)]# 相当于词典,key是分词,value是分配的编号data = list()unk_count = 0data=[dictionary[word]  if  word in dictionary else 0 for word in words]   # 将words中的每个分词用序列号表示:[14880, 4491, 483, 70, 1, 1009, 1850, 317, 14, 76]count[0][1] = unk_countreverse_dictionary = dict(zip(dictionary.values(), dictionary.keys()))     # 将dictionary中的key和value对换:[(0, 'UNK'), (1, '的'), (2, '在'), (3, '是'), (4, '年'), (5, '和'), (6, '为'), (7, '了'), (8, '有'), (9, '与')]# 相当于key是编号,value是对应的词return data, count, dictionary, reverse_dictionary

python统计词频相关推荐

  1. Python统计词频的几种方法

    本文介绍python统计词频的几种方法,供大家参考 目录 方法一:运用集合去重方法 方法二:运用字典统计 方法三:使用计数器 方法一:运用集合去重方法 def word_count1(words,n) ...

  2. python统计词频_Python统计四六级考试的词频

    Python统计四六级考试的词频 此文首发于公众号 「Python知识圈」, 欢迎直接去公众号查看 阅读文本大概需要 4.6 分钟. 今天是教师节,先祝天下所有老师教师节快乐,感谢您在我学生时代对我的 ...

  3. python统计词频瓦尔登湖_1.5 python文件操作

    1.5.1 文件的具体操作 打开文件 f = open('test.txt', 'w') 在python,使用open函数,可以打开一个已经存在的文件,或者创建一个新文件: open(文件名,访问模式 ...

  4. python 统计词频

    本文尝试用python进行词频统计,待统计的文章如下: python3源代码如下: #引入turtle模块,用于绘制结果图 import turtle #全局变量 #词频排列显示个数,我们只显示出现次 ...

  5. python统计词频_python统计词频

    一.程序分析 (1)将文件读入缓冲区(dst指文本文件存放路径,设置成形参,也可以不设,具体到函数里设置) def process_file(dst): # 读文件到缓冲区try: # 打开文件 tx ...

  6. python统计词频_Python中文分词及词频统计

    中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...

  7. python统计词频 创建字典_如何利用Python进行文本词频统计

    问题描述 Python在自然语言处理这个方面,有其天然的优势:简单,快捷.所以我们经常会遇到利用Python从一篇文档中,统计文本词频的问题.以<三国演义>这部名著为例,文中哪些人物的出场 ...

  8. python统计词频瓦尔登湖_自然语言处理之中文分词器-jieba分词器详解及python实战...

    (转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...

  9. python单词词频字典_python利用多种方式来统计词频(单词个数)

    python的思维就是让我们用尽可能少的代码来解决问题.对于词频的统计,就代码层面而言,实现的方式也是有很多种的.之所以单独谈到统计词频这个问题,是因为它在统计和数据挖掘方面经常会用到,尤其是处理分类 ...

最新文章

  1. JavaScript深拷贝Json
  2. extern “C“
  3. 如何将CSDN文档转换成IPYNB格式的文档?
  4. 无法接收 agent 发出的检测信号_BR-PST系列基桩非金属超声波检测仪的系统延时来源及测试校正方法...
  5. VS调试ReactOS源码环境搭建5 - VS通过串口连接虚拟机
  6. java构造字符缓冲区_java学习笔记 | 学步园
  7. Buuctf(pwn)ciscn_2019_n_8
  8. linux自启动配置文件,Linux中如何设置服务自启动?
  9. 2020年5月数据库流行度排行:疫情下开源数据库逆势增长,新基建下国产数据库迎机遇...
  10. TeaVM编译耗时太长,为节省时间,跳过test
  11. 创业失败反思:吾亦有大错,错在哪里?
  12. android xml红心圆,Android自定义View圆形图片控件代码详解
  13. C#项目班级管理系统
  14. DCMTK相关资料汇总
  15. 优缺点 快速扫描 硬盘监测_用硬盘检测工具检测硬盘超实用的技巧!
  16. Jlink 接口定义
  17. 音声合成:音高、泛音、谐波、基频 到底是什么概念?
  18. 联通沃云联手阿里云推混合云解决方案 打造共赢云生态
  19. vue-baidu-map添加覆盖物-点
  20. 用Android和IOT检测地震波

热门文章

  1. 哈工大三本计算机考研,这3位考研前辈的经历,说的就是我了!_哈工大考研论坛...
  2. 免费的乐谱MIDI编辑打印软件
  3. C#读取Word模板替换相应的字符串(标签)生成新的Word
  4. python_PYQT5工具开发常用知识点(一)
  5. 如何怎么写mg动画文案?这些你要知道 | 万彩动画大师
  6. 加密新潮流:社交代币衰落 社区代币崛起?
  7. 求助:r语言分位数回归engel数据穷人与富人的比较时stepfun函数的作用是什么
  8. JS学习笔记之PC端网页特效 4.30
  9. 一家公司做了两年软件测试,只会功能测试,现在已经感到危机感了,那如何摆脱困境呢?
  10. java获取win电源电量_笔记本电量尿崩?比X大师靠谱的Win10电池检测