项目描述:读一个txt文档,统计文档中中文、英文、数字、标点符号、空格的个数。利用可视化界面查看统计图表,并保存图片到指定路径
这个项目主要分为3部分:对文件的操作(读,写),统计字符的个数,将数据显示在图表中。
(1)读文件,统计个数

#1.文件操作
#   打开文件
#   读文件
#   关闭文件
#2.确定统计类型,中文、英文、数字、符号、空格
import matplotlib.pyplot as plt
MyList = []
MyDict = {}fd = open("帝婿.txt","r",encoding="utf-8")
MyList = fd.readlines()
fd.close()for line in MyList:for w in line:if w >= '\u4e00' and w <= '\u9fa5':MyDict["中文"] = MyDict.get("中文",0) +1elif w >= '\u0030' and w <= '\u0039':MyDict["数字"] = MyDict.get("数字", 0) + 1elif w == " ":MyDict["空格"] = MyDict.get("空格",0) + 1elif (w >= '\u0041' and w <= '\u005a') or (w >= '\u0061' and w <= '\u007a'):MyDict["英文"] = MyDict.get("英文", 0) + 1else:MyDict["符号"] = MyDict.get("符号", 0) +1print(MyDict)

将统计的类型和次数存放在字典中,打印如下
(2)接下来用Python自带的库matplotlib,使其生成柱状图

CHList = []#存放字符的种类
NumList = []#对应的数字个数
MyDict_len = len(MyDict)
print(MyDict_len)
MyDictSorted = sorted(MyDict.items(),key=lambda item:item[1])
print(MyDictSorted)
for i in range(MyDict_len):ch, num = MyDictSorted[i]CHList.append(ch)NumList.append(num)
plt.rcParams['font.family'] = ['Arial Unicode MS', 'Microsoft Yahei', 'SimHei', 'sans-serif']
plt.rcParams['font.size'] = 12
plt.figure(figsize=(18,8),dpi=80,facecolor='#B0C4DE')
plt.xlabel = "字符种类"
plt.ylabel = "出现次数"plt.barh(CHList,NumList,height=0.8)
plt.title = "字符出现次数统计表"
plt.show()

生成的柱状图如下,因为英文和中文的比例太大了,这个图上基本看不到英文的数字,具体出现次数可以在(1)的打印信息中查看。
那么这个小项目到这里就结束了,代码中用到了字典,列表的相关知识,文件的操作,matplotlib库的使用,当然也可以用Python写一个可视化界面,打包生成小程序,便于以后的使用。

Python应用篇——词频统计相关推荐

  1. python红楼梦词频统计

    python红楼梦词频统计 <红楼梦>人物的出场统计涉及对词汇的统计,中文文章的需要分词才能进行词频统计,需要用到jieba库. 分析过程: 代码: import jieba txt=op ...

  2. 浅析如何用Python进行中英文词频统计

    浅析如何用Python进行中英文词频统计 主要思路: 读取数据 数据预处理 分词 词频统计 结果显示 词频统计 TF-IDF(term frequency–inverse document frequ ...

  3. python分词和词频统计

    Python大数据:jieba分词,词频统计  黑冰中国 关注 0.1 2018.03.21 11:39* 字数 1717 阅读 7553评论 6喜欢 45赞赏 1 实验目的 学习如何读取一个文件 学 ...

  4. python红楼梦词频统计_用 Python 分析《红楼梦》(2)-阿里云开发者社区

    6 词频统计 完成分词以后,词频统计就非常简单了.我们只需要根据分词结果把片段切分开,去掉长度为一的片段(也就是单字),然后数一下每一种片段的个数就可以了. 这是出现次数排名前 20 的单词: (括号 ...

  5. Python实例--文本词频统计

    最近在MOOC跟着北京理工大学的嵩天老师学习Python(https://www.icourse163.org/learn/BIT-268001?tid=1003243006#/learn/annou ...

  6. Python案例:词频统计

    一.提出任务 统计文本文件里单词出现次数 - 词频,绘制词频折线图,按词频降序排列. 二.完成任务 1.创建文本文件test.txt 2.创建Python程序 - 词频统计.py # -*- codi ...

  7. python英文词频统计去除定冠词_使用Python进行英文词频统计

    对一篇英文文章进行词频统计重点在于内容去噪和归一化,可用split()进行分词.本文以<飘>为例,统计词频最高的前十位. 1.读取文件,通过lower().replace()函数将所有单词 ...

  8. Python如何进行词频统计?3种方法教给你

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于快学Python ,作者小小明 Python爬虫.数据分析.网站开发等案例教程 ...

  9. python红楼梦词频统计_Python 红楼梦的字频与词频统计

    Python 红楼梦的字频与词频统计 使用jieba分词工具分词,在网上下载了一个停用词表(包括标点符号)去除停用词. 使用wordcloud生成词云. 其实除了停用词,程度词与否定词等也应该去除,但 ...

最新文章

  1. php能调用easyui窗口,关于jQuery EasyUI window窗口使用实例详解
  2. 如何在openbsd 5.1-5.3上部署open*** 服务器?
  3. 苏宁的另类“存在感”
  4. 对 /sbin/nologin 的理解
  5. 关于C++/C中符号
  6. 张善友: .NET社区运营 | 2021 中国开发者生态峰会
  7. php去掉查询返回的字段序列,php数组函数序列之array_slice() - 在数组中根据条件取出一段值,并返回...
  8. 让java的多重继承成为现实!
  9. 手动封装element-ui里面的button组件
  10. leetcode —— 面试题68 - II. 二叉树的最近公共祖先
  11. mysql 数据结构语句_SQL 数据结构操作语句
  12. 下个月计划【2009-5】
  13. 人工智能机器学习算法
  14. 用R语言做单方程的误差修正模型(ECM)
  15. 国际电话号码的区号mysql数据表
  16. 《云知声黄伟:未来谁能成为 AI 领域的 BAT ?》笔记
  17. Windows 免密码登录
  18. solr自带智能拼音收藏
  19. 中国电信再发力:推出最新七大惠民惠企新举措
  20. ZZULIOJ1086: ASCII码排序(多实例测试)

热门文章

  1. The Neuroscientist:整合TMS、EEG和MRI——研究大脑连接性的时空动态方法
  2. 硬盘删除的文件如何恢复
  3. 资深建模师都说好用的8款建模软件
  4. 模拟退火算法求函数极值(含MATLAB代码实现)
  5. 2021祥云杯部分wp
  6. 陕西引汉济渭工地宿舍火灾已致13死24伤-陕西-引汉济渭-火灾
  7. JavaScript Storage setItem() 方法
  8. linux系统建立ftp用户名和密码,linux系统搭建ftp服务器及创建用户使用
  9. 游戏开发57课 性能优化14
  10. 将excel转换成pdf软件哪个好