def Get_Text():txt=open("hamlet.txt","r").read()txt=txt.lower()#将全文变为小写for ch in '''!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~''':#将文章中的特殊字符用空格代替txt=txt.replace(ch," ")return txthamlet_txt = Get_Text()
words = hamlet_txt.split()#拆分字符串。可以指定分隔符对字符串进行切片,并返回分割后的字符串结果,该结果是一个列表#当不给split函数传递任何参数时,分隔符sep会采用任意形式的空白字符:空格、tab、换行、回车以及formfeed。#split('\n')只有换行被作为分隔符
counts={}
for word in words:counts[word]=counts.get(word,0)+1#创建字典类型 并通过历史查询和 +1 实现单词和次数的统计匹配
it = list(counts.items())#将字典类型转化为列表
Len= len(it)
it.sort(key=lambda x:x[1],reverse=True)#key=lambda x:x[1]指按照it的第一维的数据为基准进行排序  reverse=True倒序排列#PS: 'dict' object has no attribute 'sort'
for i in range(10):word,count=it[i]print("{0:<10}{1:>5}".format(word,count))
print(it)#对于中文文章的词频统计 可以利用jieba库进行
'''
import jieba
txt=open("hhhhhh.txt","r",encoding="utf-8").read()
words=jieba.lcut(txt)#等价于上面的words jieba精确模式 返回一个列表类型的分词结果
excludes={"具有","努克"}
for word in words:if len(word)==1:#可以在遍历中将单个的词 如的 了 你 排除在外continueelse:counts[word]=counts.get(word,0)+1for word in excludes:del counts[word]#前面给出字典”黑名单“ 这里通过for将黑名单中的单词删除
'''#dict_items([('the', 1143), ('tragedy', 3), ('o
#[('the', 1143), ('and', 966), ('to', 762), ('of', 669), ('i',

Python 中英文词频统计(字典类型 jieba库应用)相关推荐

  1. jieba库词频统计_运用jieba库进行词频统计

    Python第三方库jieba(中文分词) 一.概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库 ...

  2. jieba库词频统计_用jieba库统计文本词频及云词图的生成

    一.安装jieba库 :\>pip install jieba #或者 pip3 install jieba 二.jieba库解析 jieba库主要提供提供分词功能,可以辅助自定义分词词典. j ...

  3. 浅析如何用Python进行中英文词频统计

    浅析如何用Python进行中英文词频统计 主要思路: 读取数据 数据预处理 分词 词频统计 结果显示 词频统计 TF-IDF(term frequency–inverse document frequ ...

  4. python 英语词频统计软件_Python数据挖掘——文本分析

    作者 | zhouyue65 来源 | 君泉计量 文本挖掘:从大量文本数据中抽取出有价值的知识,并且利用这些知识重新组织信息的过程. 一.语料库(Corpus) 语料库是我们要分析的所有文档的集合. ...

  5. Python英文词频统计(哈姆雷特)程序示例

    今天继续给大家介绍Python相关知识,本文主要内容是Python英文词频统计程序示例,主要是对英文文本--<哈姆雷特>进行分词. 一.英文文本词频统计思路 想要对<哈姆雷特> ...

  6. python程序设计第二章序列类型 题库及选解

    由于学校的python是笔试,所以找了份感觉比较好的题库刷了下其中前八章的填空和判断,附上选解.各章链接如下 python程序设计题库完整版 https://blog.csdn.net/lijia11 ...

  7. Python print 格式化打印字典类型

    Python print 格式化打印字典类型 import jsona = {"translateResult":[[{"tgt":"Hello wo ...

  8. Python—— 组合数据类型(模块5: jieba库的使用)(实例:基本统计值计算文本词频统计)

    前言 本篇主要介绍组合数据类型,以基本统计值计算为例,介绍函数使用和各种类型定义.以文本词频统计为例,介绍Jieba库的使用. (从本篇开始,出现的一些库中函数介绍以及部分简单代码都将以图片形式呈现) ...

  9. python文本词频统计是字典吗_【python】文章、文本内容做词频统计(使用jieba分词,添加自定义字典)...

    使用python可以轻松统计词频,做文章的词频统计也是轻而易举的事情. 1.添加自定义字典(如:超级赛亚人.奥里给等) 2.jieba分词 PS:直接将文章丢进 tf.txt 文件里,将自定义字典丢进 ...

最新文章

  1. Centos7 上安装Docker
  2. vsphere linux硬盘热添加
  3. 2台电脑间快速复制大文件
  4. 用php编写比赛评奖系统_php编写的抽奖程序中奖概率算法
  5. 听说过代码洁癖,还没听说过有 Bug 洁癖的?
  6. 【疑难杂症】vmware虚拟机提示“该虚拟机似乎正在使用中”,并且无法获取所有权解决办法(三步解决虚拟机vmware提示正在使用中的问题)
  7. [渝粤教育] 中国地质大学 面向对象程序设计 复习题
  8. shell中单引号双引号反引号的区别
  9. 关于Zipkin的几个问题
  10. 201671010433 | 词频统计软件项目报告
  11. 黄聪:一个拼图工具的制作思路
  12. iOS: 目前天气API 整理
  13. Recordia for Mac - 音频无损录制工具「M1兼容」
  14. 营业执照在线生成_营业执照用旧的?办新的?办电子的?丨现在选哪个都很“好办”...
  15. 文件传阅系统无纸化文件流转系统
  16. Windows文件系统过滤驱动开发教程-楚狂人
  17. 【无标题】16 求素数 盛通教育(C++)
  18. php限制pc访问,禁止直接访问网首首页index.php文件的方法Windows服务器操作系统 -电脑资料...
  19. vivo陷全国手机行业反垄断第一案
  20. speedoffice(PPT)插入的图片如何裁剪呢?

热门文章

  1. 5. 构造函数和普通函数的区别
  2. uniapp如何实现返回上一级页面并传值刷新
  3. Socket到底是什么?
  4. 考试题目“笨笨玩游戏”
  5. 中国筷子的十二种忌讳(转)
  6. 整理的微表情数据库资源 可直接下载到本地电脑 SAMM+SMIC+CASME1+CASME2+CASME^2+CASME3
  7. App Store政策网址
  8. Python Web中REST API使用示例——基于云平台+云服务打造自己的在线翻译工具
  9. 泰泽逐渐成为HTML5领域的领先者 - Tizen pops up as HTML5 winner
  10. 使用CNN生成图像先验,实现更广泛场景的盲图像去模糊