# 导入扩展库
import re # 正则表达式库
import collections # 词频统计库
import numpy as np # numpy数据处理库
import jieba # 结巴分词
import wordcloud # 词云展示库
from PIL import Image # 图像处理库
import matplotlib.pyplot as plt #图像展示库c# 读取文件
fn = open('2020政府工作报告.txt') # 打开文件
string_data = fn.read() # 读出整个文件
fn.close() # 关闭文件# 文本预处理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"') # 定义正则表达式匹配模式
#string_data = re.sub(pattern, '', string_data) # 将符合模式的字符去除# 文本分词
seg_list_exact = jieba.cut(string_data, cut_all = False) # 精确模式分词
object_list = []
remove_words = [u'的', u',',u'和', u'是', u'随着', u'对于', u'对',u'等',u'能',u'以',u'。',u' ',u'、',u'中',u'在',u'了',u'通常',u'如果',u'我们',u'需要',u'要'] # 自定义去除词库for word in seg_list_exact: # 循环读出每个分词if word not in remove_words: # 如果不在去除词库中object_list.append(word) # 分词追加到列表# 词频统计
word_counts = collections.Counter(object_list) # 对分词做词频统计
word_counts_top10 = word_counts.most_common(20) # 获取前10最高频的词
print (word_counts_top10) # 输出检查# 词频展示
mask = np.array(Image.open('logo.jpg')) # 定义词频背景
wc = wordcloud.WordCloud(font_path='C:/Windows/Fonts/simhei.ttf', # 设置字体格式mask=mask, # 设置背景图max_words=200, # 最多显示词数max_font_size=100 # 字体最大值
)wc.generate_from_frequencies(word_counts) # 从字典生成词云
image_colors = wordcloud.ImageColorGenerator(mask) # 从背景图建立颜色方案
wc.recolor(color_func=image_colors) # 将词云颜色设置为背景图方案
plt.imshow(wc) # 显示词云
plt.axis('off') # 关闭坐标轴
plt.show() #显示图像![运行结果](https://img-blog.csdnimg.cn/20200604113740570.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQ0MTQ4OTc0,size_16,color_FFFFFF,t_70#pic_center)

python词频统计(2020政府工作报告)相关推荐

  1. python词云分析---政府工作报告关键词

    首先安装jieba和wordcloud模块,我采用的是从清华镜像获取,pip install -i https://pypi.tuna.tsinghua.edu.cn/simple xxxx(xxxx ...

  2. 爬取《政府工作报告》词云展示并做词频统计

    爬取<政府工作报告>词云展示并做词频统计 爬取<政府工作报告内容代码: from requests import * from bs4 import BeautifulSoup r= ...

  3. 小猪的Python学习之旅 —— 15.浅尝Python数据分析:分析2018政府工作报告中的高频词...

    一句话概括本文: 爬取2018政府工作报告,通过**jieba**库进行分词后做词频统计, 最后使用 wordcloud 库制作naive词云,非常有意思- 引言: 昨晚写完上一篇把爬取到的数据写入到 ...

  4. Python库:wordcloud库介绍、政府工作报告词云、自定义背景词云

    一.wordcloud库 二.使用wordcloud库 注:库名wordcloud全部是小写,而WordCloud对象W和C大写 简单说,绘制一个词云有三步: 第一.生成词云对象WordCloud,并 ...

  5. Python基于WordCloud词云图的数据可视化分析 词云图的基本使用 政府工作报告分析

    Python基于WordCloud词云图的数据可视化分析 词云图的基本使用 政府工作报告分析 文章目录 1.词云图简介 2.wordcloud库的安装 3.WordCloud的主要参数说明 4.绘制词 ...

  6. 【Python】政府工作报告词云

    2019政府工作报告.txt https://www.lanzous.com/iby44eh 栗子1: import wordcloud import jieba f=open("2019政 ...

  7. 【python实例6.5】一篇文章让你弄懂政府工作报告词云~总结笔记

    一篇文章让你弄懂政府工作报告词云 1.安装wordcloud库 2.新时代中国特色社会主义的词云 wordcloud下载链接: https://www.lfd.uci.edu/~gohlke/pyth ...

  8. python实现 政府工作报告词云的生成(嵩天老师)

    实例12:政府工作报告词云 基本思路 -步骤1:读取文件.分词整理 -步骤2:设置并输出词云 -步骤3:观察结果,优化迭代 代码: #GovRptWordCloudv1.py import jieba ...

  9. 【Python 】政府工作报告词云生成

    **#-需求:**对于政府工作报告等政策文件,如何直观理解 **#-体会直观的价值:**生成词云 & 优化词云. **#目的:**将政府工作报告等文件转换为有效展示的词云. **#文件来源:* ...

最新文章

  1. JavaScript使用hash表方式实现数组去重。
  2. 将不确定变为确定~老赵写的CodeTimer是代码性能测试的利器
  3. 解决:The ‘Access-Control-Allow-Origin‘ header contains multiple values‘x, *‘, but only one is allowed.
  4. 接口自动化测试 返回html,接口自动化测试实战(更新完毕)
  5. typescript和coffeescript简介
  6. 升级到AKU3.3 v1.1,感受智能手机的VGA模式
  7. nodejs集成sqlite
  8. 使用layui框架时,select的onchange事件没有生效。
  9. bzoj 1675: [Usaco2005 Feb]Rigging the Bovine Election 竞选划区(暴力)
  10. 现代通信理论与新技术 PPT笔记整理
  11. 基于ROS的A*算法代码学习
  12. 对于公司的管理者,如何解决Facebook操作者离职的问题,facebook能公司统一管理吗?会不会和Facebook真实身份注册有冲突,
  13. 2.1、ROS+PX4仿真---定点飞行控制
  14. R语言技巧:读取excel文件
  15. 数据挖掘实践 —— OneR 分类算法
  16. 文件上传漏洞---Web渗透学习
  17. For循环—函数初步概念
  18. 加入域时出现“不能访问网络位置”错误信息
  19. 斑马PDA对接Android
  20. Dashboard的安装及其配置

热门文章

  1. Sql Server 循环语句插入
  2. selenium测试浏览器指纹
  3. 怀旧服10月3日服务器维护,魔兽怀旧服:即将开放怀旧服PTR服务器 3/10开放阿拉希...
  4. 红外光谱的理论与实践
  5. mysql sql语句执行顺序
  6. 计算机网上阅卷的试卷扫描及图象处理对考生书写答题卷有何要求考生注意事项
  7. Web前端学习记录——CSS3过渡属性+定位实现简单的动画效果
  8. c语言网页版在线编译器_手机编写C语言神器,集成gcc插件,还能制作APP!
  9. i5 12400核显性能 i5 12400核显相当于什么显卡
  10. Hbase实战问题(二)/hbase/WALs/id,端口,xxxxxxxx-splitting is non empty: Directory is not empty