第三次作业词频统计

一、

学号：2017035107002

姓名：班雪

完整代码如下：

# filename： word_freq.py
# 注意：代码风格

from string import punctuation

def process_file(dst): # 读文件到缓冲区
try: # 打开文件
f = open(dst,"r")
except IOError as s:
print (s)
return None
try: # 读文件到缓冲区
bvffer = f.read()
except:
print ("Read File Error!")
return None
f.close()
return bvffer

def process_buffer(bvffer):
if bvffer:
word_freq = {}

bvffer = bvffer.lower()
for fh in ',.!?+-_':

bvffer = bvffer.replace(fh, " ")

words = bvffer.strip().split()

for word in words:
word_freq[word] = word_freq.get(word, 0) + 1

return word_freq

def output_result(word_freq):
if word_freq:
sorted_word_freq = sorted(word_freq.items(), key=lambda v: v[1], reverse=True)
for item in sorted_word_freq[:10]: # 输出 Top 10 的单词
print(item)

if __name__ == "__main__":
import argparse
parser = argparse.ArgumentParser()
parser.add_argument('dst')
args = parser.parse_args()
dst = args.dst
bvffer = process_file(dst)
word_freq = process_buffer(bvffer)
output_result(word_freq)

二、程序分析

1）读取文件

2）设置缓冲区，对文本特殊符号进行修改，并读入字典

3）设置输出函数，进行排序并输出。

4）封装main函数

三、统计结果

1、大文件运行命令：

python word_freq.py  Gone_with_the_wind.txt结果

2、小文件运行命令：

python word_freq.py  A_Tale_of_Two_Cities运行结果：

3、执行次数最多的代码，执行时间最长的代码

4、分析结果

四、总结对git还是不太了解，需要进一步的掌握，学会了了简单的词频统计的操作，运用的还是不够熟练 ，需要加快运行词频统计的操作

---恢复内容结束---

转载于:https://www.cnblogs.com/banxue8/p/10677938.html

第三次作业词频统计相关推荐

【现代软件工程】第一次作业——词频统计
目录 1.1基本功能 1.2设计实现 1.3代码结构 1.4测试运行 1.5性能分析 1.6项目总结 1.7 PSP展示 1.1 基本功能 1. 统计文件的字符数(只需要统计Ascii码,汉字不用 ...
组合数据类型练习，英文词频统计实例上（2017.9.22）
字典实例:建立学生学号成绩字典,做增删改查遍历操作. sno=['33号','34号','35号','36号'] grade=[100,90,80,120] d={'33号':100,'34号':90 ...
python jieba分词及中文词频统计
这篇博客用来记录一下自己学习用python做词频统计的过程,接上篇的英文词频统计上篇:python词频统计并按词频排序参考资料:jieba参考文档目录一.jieba库简介二.一些准备工作三 ...
python词云图词频统计
目录一:安装必要的库二:数据分析条形图可视化三:数据分析词频统计词云图可视化一:安装必要的库导入必要的库 import collections # 词频统计库 import os im ...
Hadoop综合大作业补交4次作业：获取全部校园新闻，网络爬虫基础练习，中文词频统计，熟悉常用的Linux操作...
1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计. (1)开启所有的服务,并创建文件夹wwc (2)查看目录下所有文件 (3)把hdfs文件系统中文件夹里的文 ...
北京交通大学Python课程设计大作业（四）——典籍词频统计
北京交通大学Python课程设计大作业(四)--典籍词频统计文章目录北京交通大学Python课程设计大作业(四)--典籍词频统计一.词频统计任务介绍二.典籍词频统计python源代码如下三. ...
软工作业3：词频统计
词频统计一.编译环境 (1)IDE:PyCharm 2018 (2)python版本:python3.6.3(Anaconda3-5.1.0 ) 二.程序分析 (1)读文件到缓冲区(process ...
【作业】组合数据类型练习，英文词频统计实例
1.列表实例:由字符串创建一个作业评分列表,做增删改查询统计遍历操作.例如,查询第一个3分的下标,统计1分的同学有多少个,3分的同学有多少个等. 1 score = list('012332211') ...
软工作业3—词频统计
一.案例课程分析 1.编译环境 pycharm2018.python3.7 2.读文件到缓存区(process_file(dst)) def process_file(dst): # 读文件到缓冲区 ...
软工作业4：词频统计
一.基本信息 # 编译环境:Pycharm2018.Python3.7# 项目名称:词频统计--基本功能(结对编程)# 作者: 1613072050:马钰# 1613072051:朱佳豪# 16130 ...

第三次作业词频统计

第三次作业词频统计相关推荐

最新文章

热门文章

第三次作业 词频统计

第三次作业 词频统计相关推荐

最新文章

热门文章

第三次作业词频统计

第三次作业词频统计相关推荐