1.用到的一些包,如下

import jieba
import collections
import re
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType
from pyecharts import options as opts
from pyecharts.globals import ThemeType

如果在运行中提示你没有的包,可以使用下面的镜像链接在cmd窗口下安装:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyecharts

2.核心代码及必要的注释

# 定义删词函数,删除分词结果中的无用词汇
def deal_txt(seg_list_exact):result_list = []# 读取需要删去的词文本,文本可为空,代表无删除的词汇,注意改路径with open('D:\\Desktop\\deal_words.txt', encoding='utf-8') as f:content = f.readlines()deal_words = set()for i in content:i = i.replace("\n", "")  # 去掉读取每一行数据的\ndeal_words.add(i)for word in seg_list_exact:# 删除不要的词汇if word not in deal_words and len(word) > 1:result_list.append(word)print(result_list)return result_list# 渲染词云函数
def render_cloud(word_counts_top100):word1 = WordCloud(init_opts=opts.InitOpts(width='1350px', height='750px', theme=ThemeType.MACARONS))# series_name参数设置系列名称,用于tooltip的显示,legend的图例筛选# data_pair参数是系列数据项,数据格式如[(word1, count1), (word2, count2)]这样# word_size_range参数设置单词字体大小范围# shape参数设置词云图轮廓,有'DIAMOND','TRIANGLE'等可选word1.add(series_name='词频统计', data_pair=word_counts_top100, word_size_range=[15, 100],textstyle_opts=opts.TextStyleOpts(font_family='cursive'), shape=SymbolType.TRIANGLE)# title_opts参数是词云图标题名的设置# tooltip_opts参数是鼠标放在词云图上时词频统计的提示框设置word1.set_global_opts(title_opts=opts.TitleOpts('词云图'),toolbox_opts=opts.ToolboxOpts(is_show=True, orient='vertical'),tooltip_opts=opts.TooltipOpts(is_show=True, background_color='blue', border_color='yellow'))# 渲染在html页面上,你也可以保存为jpg、png图片形式word1.render("D:\\Desktop\\词云图.html")# 主函数
if __name__ == '__main__':# 读取分词文本文件with open('D:\\Desktop\\content.txt', encoding='utf-8') as f:data = f.read()# 文本预处理,去除一些无用的字符,使用正则表达式只提取出中文出来new_data = re.findall('[\u4e00-\u9fa5]+', data, re.S)new_data = " ".join(new_data)# 利用jieba分词将整句切成分词seg_list_exact = jieba.cut(new_data, cut_all=True)# 删除无用词汇final_list = deal_txt(seg_list_exact)# 筛选后统计word_counts = collections.Counter(final_list)# 获取前100最高频的词word_counts_top100 = word_counts.most_common(100)# 打印出来看看统计的词频print(word_counts_top100)# 展示前一百词汇的词云图render_cloud(word_counts_top100)

3.两万字共产党宣言词云图结果展示

共产党宣言链接:百度安全验证

分词结果及前一百词频展示如下:

词云图展示如下:

一目了然啊,阶级斗争是主旋律,愿我们都是无产阶级。

Python绘制词云图相关推荐

  1. python绘制词云图转换图_(数据科学学习手札71)利用Python绘制词云图

    1 简介 词云图是文本挖掘中用来表征词频的数据可视化图像,通过它可以很直观地展现文本数据中地高频词: 图1 词云图示例 在Python中有很多可视化框架可以用来制作词云图,如pyecharts,但这些 ...

  2. Python绘制词云图并统计词频

    文章目录 前言 程序 1. 读取文件 2. 词频统计 3. 生成词云图 4. main函数以及导入的包 结果 1. 词频统计 2. 词云图 前言 词云图又叫文字云,是对文本数据中出现频率较高的关键词予 ...

  3. 用Python绘制词云图——表白为我们拼过命的白衣天使

      每天都听说医生和冠状病毒抗战的感人事迹,有那么多的医生因为保护我们,献出了自己的生命.希望逝者安息,活者坚强,所有健在的医生和我国同胞万众一心,早日战胜病毒.静待春暖花开,万物复苏.   今天我就 ...

  4. 实战|Python轻松实现绘制词云图(附详细源码)

    项目背景虽然现在已经有很多现成的制作词云图的工具了,但一般存在以下几个问题:问题一:工具太多,眼花缭乱,质量参差不齐,选择困难症: 问题二:大多词云工具或多或少有一些限制,自定义的空间有限:问题三:有 ...

  5. echarts词云图形状_用Python 3.8绘制词云图就这么20行代码

    艾莎为了寻找父母遇难的真相,以及自己魔力的来源,她与安娜.克斯托夫.驯鹿斯特与雪宝一行远走阿伦戴尔王国,去北方寻找这两个问题的答案,途中发生了一些冒险故事-- 电影<冰雪奇缘2>无论是美轮 ...

  6. python画字符形状的词云图_python根据词频字典或字符串绘制词云图

    由于工作需要,要根据现有的新闻数据统计词频,绘制词云图,比较擅长python,因此没有用可以生成云图的网页工具.由于我的数据量比较大,因此根据字符串自动进行统计并绘制云图的方式并不适合我.我需要手动从 ...

  7. python中文词云图代码_python绘制中文词云图

    1. 明确任务 最近学习过程中看到很多分析报告中都有运用到可视化的词云,也有看到五花八门的工具教程,刚好有一份<都挺好>电视剧的弹幕源数据.便决定用这份数据尝试使用python绘制词云. ...

  8. 用Python做中文分词和绘制词云图

    用Python做中文分词和绘制词云图 Python窗体布局 def __init__(self):self.root=Tk()self.root.wm_title('绘制词云')self.root.r ...

  9. Python爬取《哆啦A梦-伴我同行2》影评,手把手带你绘制词云图!

    本文简介 <哆啦A梦:伴我同行2>是纪念<哆啦A梦>50周年的作品之一,于2021年5月28日在中国内地上映. 哆啦A梦系列,是陪伴我,乃至陪伴了几代人成长的故事.50年来,藤 ...

最新文章

  1. Centos5.5上vsftpd安装使用
  2. RedHat5.6x64下配置Oracle11g
  3. Ajax.net实现loading登陆的效果
  4. 【Python】Pyecharts数据可视化模块练习
  5. delphi调用c#写的webservice中文出现乱码的问题
  6. 引用第三方高德地图接口---使用js脚本进行开发地图定位的步骤
  7. SMTP Error: Could not connect to SMTP host
  8. Python遍历列表里面序号和值的方法
  9. MAC算法原理与常用实现
  10. 微软关闭音乐服务器,微软关闭Zune音乐服务 Zune播放器变为MP3
  11. 【Advanced Windows Phone Programming】在windows phone 8中录制MP3和AAC及Amr音频
  12. foregroundservice的用处和用法
  13. 数字听力Numbers Listening
  14. 华为S9306简单实用配置合集
  15. yolov3识别的类别_Yolo3 如何只识别一个类别
  16. 【开源项目分享】使用select、多线程完成的多人联机对战五子棋小游戏(C语言实现)
  17. 吉他基本功练习原理及方法
  18. 文献检索——Web of Science|CSDN创作打卡
  19. HDU 1859 最小长方形
  20. 无觅科技分析:小红书海外版云手机,养号增粉点赞利器

热门文章

  1. html地址栏转换乱码,如何解决jquery url中文乱码的问题
  2. 变位词(leeetcode)
  3. C++——计算点到直线的距离保留两位小数
  4. Axure财务出纳管理系统Axure原型设计
  5. 搭建 SVN Linux服务器
  6. PhotoShop入门到精通(三)之 钢笔工具
  7. 群体行为识别深度学习方法研究综述
  8. 使用WinRAR如何设置密码、存储密码、忘记密码怎么办?
  9. Java中换行输出的两种方法
  10. 一键解析XML文件(利用Digester实现可配置)