一、

学号:2017035107002

姓名:班雪

完整代码如下:

# filename: word_freq.py
# 注意:代码风格

from string import punctuation

def process_file(dst): # 读文件到缓冲区
try: # 打开文件
f = open(dst,"r")
except IOError as s:
print (s)
return None
try: # 读文件到缓冲区
bvffer = f.read()
except:
print ("Read File Error!")
return None
f.close()
return bvffer

def process_buffer(bvffer):
if bvffer:
word_freq = {}

bvffer = bvffer.lower()
for fh in ',.!?+-_':

bvffer = bvffer.replace(fh, " ")

words = bvffer.strip().split()

for word in words:
word_freq[word] = word_freq.get(word, 0) + 1

return word_freq

def output_result(word_freq):
if word_freq:
sorted_word_freq = sorted(word_freq.items(), key=lambda v: v[1], reverse=True)
for item in sorted_word_freq[:10]: # 输出 Top 10 的单词
print(item)

if __name__ == "__main__":
import argparse
parser = argparse.ArgumentParser()
parser.add_argument('dst')
args = parser.parse_args()
dst = args.dst
bvffer = process_file(dst)
word_freq = process_buffer(bvffer)
output_result(word_freq)

二、程序分析

1)读取文件

2)设置缓冲区,对文本特殊符号进行修改,并读入字典

3)设置输出函数,进行排序并输出。

4)封装main函数

三、统计结果

1、大文件运行命令:

python word_freq.py  Gone_with_the_wind.txt结果

2、小文件运行命令:

python word_freq.py  A_Tale_of_Two_Cities运行结果:

3、执行次数最多的代码,执行时间最长的代码

4、分析结果

四、总结对git还是不太了解,需要进一步的掌握,学会了了简单的词频统计的操作,运用的还是不够熟练 ,需要加快运行词频统计的操作
 
 
 
 
 
 

---恢复内容结束---

转载于:https://www.cnblogs.com/banxue8/p/10677938.html

第三次作业 词频统计相关推荐

  1. 【现代软件工程】第一次作业——词频统计

    目录 1.1基本功能 1.2设计实现 1.3代码结构 1.4测试运行 1.5性能分析 1.6项目总结 1.7 PSP展示   1.1 基本功能 1. 统计文件的字符数(只需要统计Ascii码,汉字不用 ...

  2. 组合数据类型练习,英文词频统计实例上(2017.9.22)

    字典实例:建立学生学号成绩字典,做增删改查遍历操作. sno=['33号','34号','35号','36号'] grade=[100,90,80,120] d={'33号':100,'34号':90 ...

  3. python jieba分词及中文词频统计

    这篇博客用来记录一下自己学习用python做词频统计的过程,接上篇的英文词频统计 上篇:python词频统计并按词频排序 参考资料:jieba参考文档 目录 一.jieba库简介 二.一些准备工作 三 ...

  4. python词云图词频统计

    目录 一:安装必要的库 二:数据分析 条形图可视化 三:数据分析 词频统计 词云图可视化 一:安装必要的库 导入必要的库 import collections # 词频统计库 import os im ...

  5. Hadoop综合大作业补交4次作业:获取全部校园新闻,网络爬虫基础练习,中文词频统计,熟悉常用的Linux操作...

    1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计. (1)开启所有的服务,并创建文件夹wwc (2)查看目录下所有文件 (3)把hdfs文件系统中文件夹里的文 ...

  6. 北京交通大学Python课程设计大作业(四)——典籍词频统计

    北京交通大学Python课程设计大作业(四)--典籍词频统计 文章目录 北京交通大学Python课程设计大作业(四)--典籍词频统计 一.词频统计任务介绍 二.典籍词频统计python源代码如下 三. ...

  7. 软工作业3: 词频统计

    词频统计 一.编译环境 (1)IDE:PyCharm 2018 (2)python版本:python3.6.3(Anaconda3-5.1.0  ) 二.程序分析 (1)读文件到缓冲区(process ...

  8. 【作业】组合数据类型练习,英文词频统计实例

    1.列表实例:由字符串创建一个作业评分列表,做增删改查询统计遍历操作.例如,查询第一个3分的下标,统计1分的同学有多少个,3分的同学有多少个等. 1 score = list('012332211') ...

  9. 软工作业3—词频统计

    一.案例课程分析 1.编译环境 pycharm2018.python3.7 2.读文件到缓存区(process_file(dst)) def process_file(dst): # 读文件到缓冲区 ...

  10. 软工作业4:词频统计

    一.基本信息 # 编译环境:Pycharm2018.Python3.7# 项目名称:词频统计--基本功能(结对编程)# 作者: 1613072050:马钰# 1613072051:朱佳豪# 16130 ...

最新文章

  1. 计算机应用 含升学方向,对口升学《计算机应用基础》复习资料总汇(含答案))讲述.doc...
  2. VMware Virtual SAN 互操作性:OpenStack
  3. redis 获取所有key_Redis笔记
  4. pivot 附近有语法错误,您可能需要将当前数据库的兼容级别设置为更高的值。...
  5. 什么集成mysql_mysql集成部署
  6. 重载函数编译后的新名字
  7. ScalaTour 2.函数
  8. htaccess是什么文件
  9. 生存分析——KM生存曲线、hazard比例、PH假定检验、非比例风险模型(分层/时变/参数模型)(二)
  10. [月报] 掘金翻译计划月报 — 2018 年 11 月
  11. swagger-ui多端口自动切换优化
  12. J-Trace入门系列1:感动人心的功能与更感动人心的售价
  13. 手机mtkcdc端口如何开启_联想手机MTK线刷设置PreLoader端口的方法
  14. 计算机不能上网的故障和解决办法,电脑无法上网的原因分析及解决办法
  15. 完美解决onenote同步速度慢(修改hosts文件)以及如何取得文件修改权限
  16. 梳理吸收率、反射率和透射率
  17. python中天天向上的力量实例
  18. python flask 微信_使用Flask创建微信公众号
  19. Jquery--一个form中两个submit事件如何进行区分
  20. 怎么用手机拍摄制作视频

热门文章

  1. ListIterator和Iterator的区别
  2. IE成长之路--OSPF报文类型
  3. H3CPPPOE拨号
  4. Leetcode 刷题笔记(二十三) ——动态规划篇之基础题目
  5. 使用Python解压,对比文件
  6. 电器缺水保护控制介绍
  7. oozie 调度pyspark
  8. HoloLens的显示分辨率有多少?
  9. 比较Apache Hadoop 生态系统中不同的文件格式和存储引擎的性能
  10. 科大讯飞发布会,我看到的人工智能