python统计词频
def build_dataset(words):count = [['UNK', -1]]#collections.Counter(words).most_commoncount.extend(collections.Counter(words).most_common(vocabulary_size - 1)) # words中每个分词计数,然后按照词频降序排列放在count里:[['UNK', -1], ('的', 99229), ('在', 25925), ('是', 20172), ('年', 17007), ('和', 16514), ('为', 15231), ('了', 13053), ('有', 11253), ('与', 11194)]dictionary = dict()for word, _ in count:dictionary[word] = len(dictionary) # count中每个词分配一个编号,:[('UNK', 0), ('的', 1), ('在', 2), ('是', 3), ('年', 4), ('和', 5), ('为', 6), ('了', 7), ('有', 8), ('与', 9)]# 相当于词典,key是分词,value是分配的编号data = list()unk_count = 0data=[dictionary[word] if word in dictionary else 0 for word in words] # 将words中的每个分词用序列号表示:[14880, 4491, 483, 70, 1, 1009, 1850, 317, 14, 76]count[0][1] = unk_countreverse_dictionary = dict(zip(dictionary.values(), dictionary.keys())) # 将dictionary中的key和value对换:[(0, 'UNK'), (1, '的'), (2, '在'), (3, '是'), (4, '年'), (5, '和'), (6, '为'), (7, '了'), (8, '有'), (9, '与')]# 相当于key是编号,value是对应的词return data, count, dictionary, reverse_dictionary
python统计词频相关推荐
- Python统计词频的几种方法
本文介绍python统计词频的几种方法,供大家参考 目录 方法一:运用集合去重方法 方法二:运用字典统计 方法三:使用计数器 方法一:运用集合去重方法 def word_count1(words,n) ...
- python统计词频_Python统计四六级考试的词频
Python统计四六级考试的词频 此文首发于公众号 「Python知识圈」, 欢迎直接去公众号查看 阅读文本大概需要 4.6 分钟. 今天是教师节,先祝天下所有老师教师节快乐,感谢您在我学生时代对我的 ...
- python统计词频瓦尔登湖_1.5 python文件操作
1.5.1 文件的具体操作 打开文件 f = open('test.txt', 'w') 在python,使用open函数,可以打开一个已经存在的文件,或者创建一个新文件: open(文件名,访问模式 ...
- python 统计词频
本文尝试用python进行词频统计,待统计的文章如下: python3源代码如下: #引入turtle模块,用于绘制结果图 import turtle #全局变量 #词频排列显示个数,我们只显示出现次 ...
- python统计词频_python统计词频
一.程序分析 (1)将文件读入缓冲区(dst指文本文件存放路径,设置成形参,也可以不设,具体到函数里设置) def process_file(dst): # 读文件到缓冲区try: # 打开文件 tx ...
- python统计词频_Python中文分词及词频统计
中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...
- python统计词频 创建字典_如何利用Python进行文本词频统计
问题描述 Python在自然语言处理这个方面,有其天然的优势:简单,快捷.所以我们经常会遇到利用Python从一篇文档中,统计文本词频的问题.以<三国演义>这部名著为例,文中哪些人物的出场 ...
- python统计词频瓦尔登湖_自然语言处理之中文分词器-jieba分词器详解及python实战...
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...
- python单词词频字典_python利用多种方式来统计词频(单词个数)
python的思维就是让我们用尽可能少的代码来解决问题.对于词频的统计,就代码层面而言,实现的方式也是有很多种的.之所以单独谈到统计词频这个问题,是因为它在统计和数据挖掘方面经常会用到,尤其是处理分类 ...
最新文章
- JavaScript深拷贝Json
- extern “C“
- 如何将CSDN文档转换成IPYNB格式的文档?
- 无法接收 agent 发出的检测信号_BR-PST系列基桩非金属超声波检测仪的系统延时来源及测试校正方法...
- VS调试ReactOS源码环境搭建5 - VS通过串口连接虚拟机
- java构造字符缓冲区_java学习笔记 | 学步园
- Buuctf(pwn)ciscn_2019_n_8
- linux自启动配置文件,Linux中如何设置服务自启动?
- 2020年5月数据库流行度排行:疫情下开源数据库逆势增长,新基建下国产数据库迎机遇...
- TeaVM编译耗时太长,为节省时间,跳过test
- 创业失败反思:吾亦有大错,错在哪里?
- android xml红心圆,Android自定义View圆形图片控件代码详解
- C#项目班级管理系统
- DCMTK相关资料汇总
- 优缺点 快速扫描 硬盘监测_用硬盘检测工具检测硬盘超实用的技巧!
- Jlink 接口定义
- 音声合成:音高、泛音、谐波、基频 到底是什么概念?
- 联通沃云联手阿里云推混合云解决方案 打造共赢云生态
- vue-baidu-map添加覆盖物-点
- 用Android和IOT检测地震波
热门文章
- 哈工大三本计算机考研,这3位考研前辈的经历,说的就是我了!_哈工大考研论坛...
- 免费的乐谱MIDI编辑打印软件
- C#读取Word模板替换相应的字符串(标签)生成新的Word
- python_PYQT5工具开发常用知识点(一)
- 如何怎么写mg动画文案?这些你要知道 | 万彩动画大师
- 加密新潮流:社交代币衰落 社区代币崛起?
- 求助:r语言分位数回归engel数据穷人与富人的比较时stepfun函数的作用是什么
- JS学习笔记之PC端网页特效 4.30
- 一家公司做了两年软件测试,只会功能测试,现在已经感到危机感了,那如何摆脱困境呢?
- java获取win电源电量_笔记本电量尿崩?比X大师靠谱的Win10电池检测