在PYTHON二级教程中有一个错误,10.8.2节给出了生成《红楼梦》基本词云图的代码。不少人按照代码做一遍,才发现,生成的词云图并不像教材图片中的那么理想,出现了大量字体很大的“单字”,这些“单字”并没有什么意义。

错误的词云图

wordcloud是phython很好用的一个第三方库,通常和jieba库一同使用。为什么出现了这样大字号“单字”的错误,我们先看代码。

可见下图的错误代码中,直接使用了jieba.lcut( )函数生成的含有“单字”的列表,在没有过滤掉这些“单字”的情况下,就用.join( )函数进行连接,生成新的字符串。因此,词云图中含有较多的“单字”,而且字号比较大,遮挡了有用的词语,词云图的质量不好。

错误的代码

为了纠正错误,对该段代码进行修改,如下图,新添加了一个ls=[ ]列表,将words列表中的非“单字”逐个传送到了ls中,这样也就过滤了“单字”。然后将新列表ls执行.join( )函数,连接成wordcloud使用的长字符串。

修正后的代码

此时生成的词云图如下图所示,可见其中已经过滤掉了“单字”,词语的显示更加清晰。

正确的词云图

正确的代码如下:

#红楼梦词云图
import jieba
from wordcloud import WordCloudexcludes={"什么","一个","我们","那里","你们",'如今',\"说道","知道","老太太","起来","姑娘",'这里',\'出来','他们','众人','自己','一面','太太',\'只见',"怎么",'奶奶','两个','没有','不是',\'不知','这个','听见','的','又'}f=open('红楼梦.txt','r',encoding='utf-8')txt=f.read()f.close()words=jieba.lcut(txt)ls=[]
for i in words:if len(i)!=1:ls.append(i)newtxt=' '.join(ls)wordcloud=WordCloud(background_color='white',\height=600,\width=800,\font_path='msyh.ttc',\max_font_size=80,max_words=200,stopwords=excludes,\).generate(newtxt)
wordcloud.to_file('红楼梦基本词云.jpg')

wordcloud红楼梦词云图出现单字怎么办?相关推荐

  1. python红楼梦人物词频统计_用Python绘制红楼梦词云图,竟然发现了这个!

    原标题:用Python绘制红楼梦词云图,竟然发现了这个! Python在数据分析中越来越受欢迎,已经达到了统计学家对R的喜爱程度,Python的拥护者们当然不会落后于R,开发了一个个好玩的数据分析工具 ...

  2. 红楼梦词云用Python还能这样画

    在 用Python绘制红楼梦词云图 文章中讲到我们使用Python把红楼梦中的核心词汇给绘画出来了,但是,红楼梦这么唯美的书,给我们乌漆麻黑的搞了一张词云,宝宝们肯定接受不了. 那怎么办呢?能否用贾宝 ...

  3. 【python】用python实现wordcloud大数据词云图分析

    [python]用python实现wordcloud大数据词云图分析 一.应用场景 二.工具包安装及代码 三.中文不能正常显示问题 四.关键词重复问题 五.最终结论 一.应用场景 大数据词云(word ...

  4. jieba和wordcloud红楼梦人物出现次数生成词云

    目录结构: dict.txt: 黛玉 10 nrke 宝钗 10 nrke 贾演 10 nrke 贾寅 10 nrke 贾源 10 nrke 贾法 10 nrke 贾代化 10 nrke 贾代善 10 ...

  5. 红楼梦词云制作(带背景)

    初学望批评指正. 红楼词云带背景图的那种. 原始图像: 原始图像 原始的扣下来的林妹妹 最终用ps合成的图.其实挺唏嘘的,一般人认为黛玉是绝对的女主,但是黛玉只出现了900多次,不及贾母3000次.凤 ...

  6. python红楼梦词云_用Python读红楼梦之——二、词云美化

    原文链接 咱们书接上回,讲到我们使用Python把红楼梦中的核心词汇给绘画出来了,但是,红楼梦这么唯美的书,给我们乌漆麻黑的搞了一张词云,宝宝们肯定接受不了. 我们先来找照片,这张照片不错,不过还是要 ...

  7. 【Python】文本文件生成词云图片-单字过滤和任意形状词云和清晰度提高

    [Python]txt文本文件生成词云图片 资源提供 纯方框,无文字 单字过滤 任意形状词云 提高清晰度 完整代码 该程序由pycharm运行,产生的图片文件在项目文件夹内. 资源提供 决胜全面建成小 ...

  8. [python] 基于wordcloud库绘制词云图

    词云Wordcloud是文本数据的一种可视化表示方式.它通过设置不同的字体大小或颜色来表现每个术语的重要性.词云在社交媒体中被广泛使用,因为它能够让读者快速感知最突出的术语.然而,词云的输出结果没有统 ...

  9. 对中国四大名著--红楼梦 使用jieba进行分词处理 排除去停词 统计完整词频并按降序排列 前20词绘制词云图

    文章目录 前言 一.jieba是什么? 支持四种分词模式: 支持繁体分词 支持自定义词典 MIT 授权协议 二.直接上代码了 总结 前言 今天用jieba和词云库做个作业,顺便记录一下,作业要求: 1 ...

最新文章

  1. javaweb学习总结——Filter高级开发
  2. python可以自学吗需要什么基础-python自学行吗?给编程初学者零基础入门的建议...
  3. 陕西中小企业促进局 e-mail_重点注意2020陕西工程师职称评审破格指南
  4. Java函数式编程知识分享!
  5. 手机键鼠映射软件_吃鸡,我最专业!---盖世小鸡键鼠吃鸡套装评测
  6. 使用Python内置集合对象和内置函数filter()过滤无效书评
  7. java ArrayList集合
  8. 深度学习笔记(三)——GAN入门实现MNIST数据集
  9. 今天同学跟我说刚入门前端,想到我目前实习的公司涨涨经验
  10. 数学与计算机学院女生节标语,3.7女生节标语
  11. thinkphp 中英文网站详解
  12. 搞懂差分密码分析,看这篇文章就够了!!
  13. 7个步骤!3分钟!轻松绘制简单好看的折线图!
  14. ssis trainning
  15. 世界上最值钱的初创公司
  16. flutter填坑之旅(环境搭建篇--mac系统)
  17. 爬取某壁纸网站图片(简单爬虫,入门)
  18. Win10系统设置炫酷下拉关机(其实很简单啦!)
  19. SIP-会话发起协议
  20. 手机个人征信查询攻略

热门文章

  1. mysql 5.7破解版下载_mysql 5.7 免安装版下载及配置教程
  2. 在B站外,我用Python数据分析看到了另一批“后浪”!
  3. wow工作室脚本_打击工作室的脚本排队行径,魔兽健康环境从我做起!
  4. echarts 横轴为时间轴,换行问题
  5. 你的独立站有安全证书吗?
  6. Windows电脑快捷健大全
  7. 双通道内存占用不超50%问题
  8. 随笔之《决战大数据》
  9. 正式转投C/C++门下
  10. 【JavaScript】JS的基础知识