wordcloud红楼梦词云图出现单字怎么办?
在PYTHON二级教程中有一个错误,10.8.2节给出了生成《红楼梦》基本词云图的代码。不少人按照代码做一遍,才发现,生成的词云图并不像教材图片中的那么理想,出现了大量字体很大的“单字”,这些“单字”并没有什么意义。
错误的词云图
wordcloud是phython很好用的一个第三方库,通常和jieba库一同使用。为什么出现了这样大字号“单字”的错误,我们先看代码。
可见下图的错误代码中,直接使用了jieba.lcut( )函数生成的含有“单字”的列表,在没有过滤掉这些“单字”的情况下,就用.join( )函数进行连接,生成新的字符串。因此,词云图中含有较多的“单字”,而且字号比较大,遮挡了有用的词语,词云图的质量不好。
错误的代码
为了纠正错误,对该段代码进行修改,如下图,新添加了一个ls=[ ]列表,将words列表中的非“单字”逐个传送到了ls中,这样也就过滤了“单字”。然后将新列表ls执行.join( )函数,连接成wordcloud使用的长字符串。
修正后的代码
此时生成的词云图如下图所示,可见其中已经过滤掉了“单字”,词语的显示更加清晰。
正确的词云图
正确的代码如下:
#红楼梦词云图
import jieba
from wordcloud import WordCloudexcludes={"什么","一个","我们","那里","你们",'如今',\"说道","知道","老太太","起来","姑娘",'这里',\'出来','他们','众人','自己','一面','太太',\'只见',"怎么",'奶奶','两个','没有','不是',\'不知','这个','听见','的','又'}f=open('红楼梦.txt','r',encoding='utf-8')txt=f.read()f.close()words=jieba.lcut(txt)ls=[]
for i in words:if len(i)!=1:ls.append(i)newtxt=' '.join(ls)wordcloud=WordCloud(background_color='white',\height=600,\width=800,\font_path='msyh.ttc',\max_font_size=80,max_words=200,stopwords=excludes,\).generate(newtxt)
wordcloud.to_file('红楼梦基本词云.jpg')
wordcloud红楼梦词云图出现单字怎么办?相关推荐
- python红楼梦人物词频统计_用Python绘制红楼梦词云图,竟然发现了这个!
原标题:用Python绘制红楼梦词云图,竟然发现了这个! Python在数据分析中越来越受欢迎,已经达到了统计学家对R的喜爱程度,Python的拥护者们当然不会落后于R,开发了一个个好玩的数据分析工具 ...
- 红楼梦词云用Python还能这样画
在 用Python绘制红楼梦词云图 文章中讲到我们使用Python把红楼梦中的核心词汇给绘画出来了,但是,红楼梦这么唯美的书,给我们乌漆麻黑的搞了一张词云,宝宝们肯定接受不了. 那怎么办呢?能否用贾宝 ...
- 【python】用python实现wordcloud大数据词云图分析
[python]用python实现wordcloud大数据词云图分析 一.应用场景 二.工具包安装及代码 三.中文不能正常显示问题 四.关键词重复问题 五.最终结论 一.应用场景 大数据词云(word ...
- jieba和wordcloud红楼梦人物出现次数生成词云
目录结构: dict.txt: 黛玉 10 nrke 宝钗 10 nrke 贾演 10 nrke 贾寅 10 nrke 贾源 10 nrke 贾法 10 nrke 贾代化 10 nrke 贾代善 10 ...
- 红楼梦词云制作(带背景)
初学望批评指正. 红楼词云带背景图的那种. 原始图像: 原始图像 原始的扣下来的林妹妹 最终用ps合成的图.其实挺唏嘘的,一般人认为黛玉是绝对的女主,但是黛玉只出现了900多次,不及贾母3000次.凤 ...
- python红楼梦词云_用Python读红楼梦之——二、词云美化
原文链接 咱们书接上回,讲到我们使用Python把红楼梦中的核心词汇给绘画出来了,但是,红楼梦这么唯美的书,给我们乌漆麻黑的搞了一张词云,宝宝们肯定接受不了. 我们先来找照片,这张照片不错,不过还是要 ...
- 【Python】文本文件生成词云图片-单字过滤和任意形状词云和清晰度提高
[Python]txt文本文件生成词云图片 资源提供 纯方框,无文字 单字过滤 任意形状词云 提高清晰度 完整代码 该程序由pycharm运行,产生的图片文件在项目文件夹内. 资源提供 决胜全面建成小 ...
- [python] 基于wordcloud库绘制词云图
词云Wordcloud是文本数据的一种可视化表示方式.它通过设置不同的字体大小或颜色来表现每个术语的重要性.词云在社交媒体中被广泛使用,因为它能够让读者快速感知最突出的术语.然而,词云的输出结果没有统 ...
- 对中国四大名著--红楼梦 使用jieba进行分词处理 排除去停词 统计完整词频并按降序排列 前20词绘制词云图
文章目录 前言 一.jieba是什么? 支持四种分词模式: 支持繁体分词 支持自定义词典 MIT 授权协议 二.直接上代码了 总结 前言 今天用jieba和词云库做个作业,顺便记录一下,作业要求: 1 ...
最新文章
- javaweb学习总结——Filter高级开发
- python可以自学吗需要什么基础-python自学行吗?给编程初学者零基础入门的建议...
- 陕西中小企业促进局 e-mail_重点注意2020陕西工程师职称评审破格指南
- Java函数式编程知识分享!
- 手机键鼠映射软件_吃鸡,我最专业!---盖世小鸡键鼠吃鸡套装评测
- 使用Python内置集合对象和内置函数filter()过滤无效书评
- java ArrayList集合
- 深度学习笔记(三)——GAN入门实现MNIST数据集
- 今天同学跟我说刚入门前端,想到我目前实习的公司涨涨经验
- 数学与计算机学院女生节标语,3.7女生节标语
- thinkphp 中英文网站详解
- 搞懂差分密码分析,看这篇文章就够了!!
- 7个步骤!3分钟!轻松绘制简单好看的折线图!
- ssis trainning
- 世界上最值钱的初创公司
- flutter填坑之旅(环境搭建篇--mac系统)
- 爬取某壁纸网站图片(简单爬虫,入门)
- Win10系统设置炫酷下拉关机(其实很简单啦!)
- SIP-会话发起协议
- 手机个人征信查询攻略