第三次作业 词频统计
一、
学号:2017035107002
姓名:班雪
完整代码如下:
# filename: word_freq.py
# 注意:代码风格
from string import punctuation
def process_file(dst): # 读文件到缓冲区
try: # 打开文件
f = open(dst,"r")
except IOError as s:
print (s)
return None
try: # 读文件到缓冲区
bvffer = f.read()
except:
print ("Read File Error!")
return None
f.close()
return bvffer
def process_buffer(bvffer):
if bvffer:
word_freq = {}
bvffer = bvffer.lower()
for fh in ',.!?+-_':
bvffer = bvffer.replace(fh, " ")
words = bvffer.strip().split()
for word in words:
word_freq[word] = word_freq.get(word, 0) + 1
return word_freq
def output_result(word_freq):
if word_freq:
sorted_word_freq = sorted(word_freq.items(), key=lambda v: v[1], reverse=True)
for item in sorted_word_freq[:10]: # 输出 Top 10 的单词
print(item)
if __name__ == "__main__":
import argparse
parser = argparse.ArgumentParser()
parser.add_argument('dst')
args = parser.parse_args()
dst = args.dst
bvffer = process_file(dst)
word_freq = process_buffer(bvffer)
output_result(word_freq)
二、程序分析
1)读取文件
2)设置缓冲区,对文本特殊符号进行修改,并读入字典
3)设置输出函数,进行排序并输出。
4)封装main函数
三、统计结果
1、大文件运行命令:
python word_freq.py Gone_with_the_wind.txt结果
2、小文件运行命令:
python word_freq.py A_Tale_of_Two_Cities运行结果: 3、执行次数最多的代码,执行时间最长的代码 4、分析结果 四、总结对git还是不太了解,需要进一步的掌握,学会了了简单的词频统计的操作,运用的还是不够熟练 ,需要加快运行词频统计的操作
---恢复内容结束---
转载于:https://www.cnblogs.com/banxue8/p/10677938.html
第三次作业 词频统计相关推荐
- 【现代软件工程】第一次作业——词频统计
目录 1.1基本功能 1.2设计实现 1.3代码结构 1.4测试运行 1.5性能分析 1.6项目总结 1.7 PSP展示 1.1 基本功能 1. 统计文件的字符数(只需要统计Ascii码,汉字不用 ...
- 组合数据类型练习,英文词频统计实例上(2017.9.22)
字典实例:建立学生学号成绩字典,做增删改查遍历操作. sno=['33号','34号','35号','36号'] grade=[100,90,80,120] d={'33号':100,'34号':90 ...
- python jieba分词及中文词频统计
这篇博客用来记录一下自己学习用python做词频统计的过程,接上篇的英文词频统计 上篇:python词频统计并按词频排序 参考资料:jieba参考文档 目录 一.jieba库简介 二.一些准备工作 三 ...
- python词云图词频统计
目录 一:安装必要的库 二:数据分析 条形图可视化 三:数据分析 词频统计 词云图可视化 一:安装必要的库 导入必要的库 import collections # 词频统计库 import os im ...
- Hadoop综合大作业补交4次作业:获取全部校园新闻,网络爬虫基础练习,中文词频统计,熟悉常用的Linux操作...
1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计. (1)开启所有的服务,并创建文件夹wwc (2)查看目录下所有文件 (3)把hdfs文件系统中文件夹里的文 ...
- 北京交通大学Python课程设计大作业(四)——典籍词频统计
北京交通大学Python课程设计大作业(四)--典籍词频统计 文章目录 北京交通大学Python课程设计大作业(四)--典籍词频统计 一.词频统计任务介绍 二.典籍词频统计python源代码如下 三. ...
- 软工作业3: 词频统计
词频统计 一.编译环境 (1)IDE:PyCharm 2018 (2)python版本:python3.6.3(Anaconda3-5.1.0 ) 二.程序分析 (1)读文件到缓冲区(process ...
- 【作业】组合数据类型练习,英文词频统计实例
1.列表实例:由字符串创建一个作业评分列表,做增删改查询统计遍历操作.例如,查询第一个3分的下标,统计1分的同学有多少个,3分的同学有多少个等. 1 score = list('012332211') ...
- 软工作业3—词频统计
一.案例课程分析 1.编译环境 pycharm2018.python3.7 2.读文件到缓存区(process_file(dst)) def process_file(dst): # 读文件到缓冲区 ...
- 软工作业4:词频统计
一.基本信息 # 编译环境:Pycharm2018.Python3.7# 项目名称:词频统计--基本功能(结对编程)# 作者: 1613072050:马钰# 1613072051:朱佳豪# 16130 ...
最新文章
- 计算机应用 含升学方向,对口升学《计算机应用基础》复习资料总汇(含答案))讲述.doc...
- VMware Virtual SAN 互操作性:OpenStack
- redis 获取所有key_Redis笔记
- pivot 附近有语法错误,您可能需要将当前数据库的兼容级别设置为更高的值。...
- 什么集成mysql_mysql集成部署
- 重载函数编译后的新名字
- ScalaTour 2.函数
- htaccess是什么文件
- 生存分析——KM生存曲线、hazard比例、PH假定检验、非比例风险模型(分层/时变/参数模型)(二)
- [月报] 掘金翻译计划月报 — 2018 年 11 月
- swagger-ui多端口自动切换优化
- J-Trace入门系列1:感动人心的功能与更感动人心的售价
- 手机mtkcdc端口如何开启_联想手机MTK线刷设置PreLoader端口的方法
- 计算机不能上网的故障和解决办法,电脑无法上网的原因分析及解决办法
- 完美解决onenote同步速度慢(修改hosts文件)以及如何取得文件修改权限
- 梳理吸收率、反射率和透射率
- python中天天向上的力量实例
- python flask 微信_使用Flask创建微信公众号
- Jquery--一个form中两个submit事件如何进行区分
- 怎么用手机拍摄制作视频