Python 中英文词频统计(字典类型 jieba库应用)
def Get_Text():txt=open("hamlet.txt","r").read()txt=txt.lower()#将全文变为小写for ch in '''!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~''':#将文章中的特殊字符用空格代替txt=txt.replace(ch," ")return txthamlet_txt = Get_Text()
words = hamlet_txt.split()#拆分字符串。可以指定分隔符对字符串进行切片,并返回分割后的字符串结果,该结果是一个列表#当不给split函数传递任何参数时,分隔符sep会采用任意形式的空白字符:空格、tab、换行、回车以及formfeed。#split('\n')只有换行被作为分隔符
counts={}
for word in words:counts[word]=counts.get(word,0)+1#创建字典类型 并通过历史查询和 +1 实现单词和次数的统计匹配
it = list(counts.items())#将字典类型转化为列表
Len= len(it)
it.sort(key=lambda x:x[1],reverse=True)#key=lambda x:x[1]指按照it的第一维的数据为基准进行排序 reverse=True倒序排列#PS: 'dict' object has no attribute 'sort'
for i in range(10):word,count=it[i]print("{0:<10}{1:>5}".format(word,count))
print(it)#对于中文文章的词频统计 可以利用jieba库进行
'''
import jieba
txt=open("hhhhhh.txt","r",encoding="utf-8").read()
words=jieba.lcut(txt)#等价于上面的words jieba精确模式 返回一个列表类型的分词结果
excludes={"具有","努克"}
for word in words:if len(word)==1:#可以在遍历中将单个的词 如的 了 你 排除在外continueelse:counts[word]=counts.get(word,0)+1for word in excludes:del counts[word]#前面给出字典”黑名单“ 这里通过for将黑名单中的单词删除
'''#dict_items([('the', 1143), ('tragedy', 3), ('o
#[('the', 1143), ('and', 966), ('to', 762), ('of', 669), ('i',
Python 中英文词频统计(字典类型 jieba库应用)相关推荐
- jieba库词频统计_运用jieba库进行词频统计
Python第三方库jieba(中文分词) 一.概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库 ...
- jieba库词频统计_用jieba库统计文本词频及云词图的生成
一.安装jieba库 :\>pip install jieba #或者 pip3 install jieba 二.jieba库解析 jieba库主要提供提供分词功能,可以辅助自定义分词词典. j ...
- 浅析如何用Python进行中英文词频统计
浅析如何用Python进行中英文词频统计 主要思路: 读取数据 数据预处理 分词 词频统计 结果显示 词频统计 TF-IDF(term frequency–inverse document frequ ...
- python 英语词频统计软件_Python数据挖掘——文本分析
作者 | zhouyue65 来源 | 君泉计量 文本挖掘:从大量文本数据中抽取出有价值的知识,并且利用这些知识重新组织信息的过程. 一.语料库(Corpus) 语料库是我们要分析的所有文档的集合. ...
- Python英文词频统计(哈姆雷特)程序示例
今天继续给大家介绍Python相关知识,本文主要内容是Python英文词频统计程序示例,主要是对英文文本--<哈姆雷特>进行分词. 一.英文文本词频统计思路 想要对<哈姆雷特> ...
- python程序设计第二章序列类型 题库及选解
由于学校的python是笔试,所以找了份感觉比较好的题库刷了下其中前八章的填空和判断,附上选解.各章链接如下 python程序设计题库完整版 https://blog.csdn.net/lijia11 ...
- Python print 格式化打印字典类型
Python print 格式化打印字典类型 import jsona = {"translateResult":[[{"tgt":"Hello wo ...
- Python—— 组合数据类型(模块5: jieba库的使用)(实例:基本统计值计算文本词频统计)
前言 本篇主要介绍组合数据类型,以基本统计值计算为例,介绍函数使用和各种类型定义.以文本词频统计为例,介绍Jieba库的使用. (从本篇开始,出现的一些库中函数介绍以及部分简单代码都将以图片形式呈现) ...
- python文本词频统计是字典吗_【python】文章、文本内容做词频统计(使用jieba分词,添加自定义字典)...
使用python可以轻松统计词频,做文章的词频统计也是轻而易举的事情. 1.添加自定义字典(如:超级赛亚人.奥里给等) 2.jieba分词 PS:直接将文章丢进 tf.txt 文件里,将自定义字典丢进 ...
最新文章
- Centos7 上安装Docker
- vsphere linux硬盘热添加
- 2台电脑间快速复制大文件
- 用php编写比赛评奖系统_php编写的抽奖程序中奖概率算法
- 听说过代码洁癖,还没听说过有 Bug 洁癖的?
- 【疑难杂症】vmware虚拟机提示“该虚拟机似乎正在使用中”,并且无法获取所有权解决办法(三步解决虚拟机vmware提示正在使用中的问题)
- [渝粤教育] 中国地质大学 面向对象程序设计 复习题
- shell中单引号双引号反引号的区别
- 关于Zipkin的几个问题
- 201671010433 | 词频统计软件项目报告
- 黄聪:一个拼图工具的制作思路
- iOS: 目前天气API 整理
- Recordia for Mac - 音频无损录制工具「M1兼容」
- 营业执照在线生成_营业执照用旧的?办新的?办电子的?丨现在选哪个都很“好办”...
- 文件传阅系统无纸化文件流转系统
- Windows文件系统过滤驱动开发教程-楚狂人
- 【无标题】16 求素数 盛通教育(C++)
- php限制pc访问,禁止直接访问网首首页index.php文件的方法Windows服务器操作系统 -电脑资料...
- vivo陷全国手机行业反垄断第一案
- speedoffice(PPT)插入的图片如何裁剪呢?
热门文章
- 5. 构造函数和普通函数的区别
- uniapp如何实现返回上一级页面并传值刷新
- Socket到底是什么?
- 考试题目“笨笨玩游戏”
- 中国筷子的十二种忌讳(转)
- 整理的微表情数据库资源 可直接下载到本地电脑 SAMM+SMIC+CASME1+CASME2+CASME^2+CASME3
- App Store政策网址
- Python Web中REST API使用示例——基于云平台+云服务打造自己的在线翻译工具
- 泰泽逐渐成为HTML5领域的领先者 - Tizen pops up as HTML5 winner
- 使用CNN生成图像先验,实现更广泛场景的盲图像去模糊