《红楼梦》中文分词以及绘制词云图
代码:
import jieba
from wordcloud import WordCloudexcludes = {"什么","一个"}
excludes = {"qut"}
f = open("红楼梦.txt", "r", encoding='utf-8')
txt = f.read()
f.close()
words = jieba.lcut(txt)
counts = {}
for word in words:if len(word) == 1: #排除单个字符的分词结果continueelse:counts[word] = counts.get(word,0) + 1
for word in excludes:del(counts[word])
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(30):word, count = items[i]print ("{0:{2}<10}出场次数:{1:{2}<5}".format(word, count,(chr(12288))))##############
newtxt = "".join(words)
wordcloud = WordCloud(background_color="white",\width=800,height=600,font_path="msyh.ttf",max_words=200,max_font_size=80,stopwords=excludes,).generate(newtxt)
wordcloud.to_file("红楼梦词云.png")from PIL import Image
img = Image.open('红楼梦词云.png')
img.show()
运行结果1:
运行结果2:
《红楼梦》中文分词以及绘制词云图相关推荐
- 用Python做中文分词和绘制词云图
用Python做中文分词和绘制词云图 Python窗体布局 def __init__(self):self.root=Tk()self.root.wm_title('绘制词云')self.root.r ...
- 使用Python做中文分词和绘制词云
使用Python做中文分词和绘制词云 李小璐出轨云词图 作为一门编程语言,Python的编写简单,支持库强大,应用场景多,越来越多的人开始将它作为自己的编程入门语言. Python一个比较重要的场景是 ...
- 对中国四大名著--红楼梦 使用jieba进行分词处理 排除去停词 统计完整词频并按降序排列 前20词绘制词云图
文章目录 前言 一.jieba是什么? 支持四种分词模式: 支持繁体分词 支持自定义词典 MIT 授权协议 二.直接上代码了 总结 前言 今天用jieba和词云库做个作业,顺便记录一下,作业要求: 1 ...
- Python爬取《哆啦A梦-伴我同行2》影评,手把手带你绘制词云图!
本文简介 <哆啦A梦:伴我同行2>是纪念<哆啦A梦>50周年的作品之一,于2021年5月28日在中国内地上映. 哆啦A梦系列,是陪伴我,乃至陪伴了几代人成长的故事.50年来,藤 ...
- 实战|Python轻松实现绘制词云图(附详细源码)
项目背景虽然现在已经有很多现成的制作词云图的工具了,但一般存在以下几个问题:问题一:工具太多,眼花缭乱,质量参差不齐,选择困难症: 问题二:大多词云工具或多或少有一些限制,自定义的空间有限:问题三:有 ...
- python绘制词云图转换图_(数据科学学习手札71)利用Python绘制词云图
1 简介 词云图是文本挖掘中用来表征词频的数据可视化图像,通过它可以很直观地展现文本数据中地高频词: 图1 词云图示例 在Python中有很多可视化框架可以用来制作词云图,如pyecharts,但这些 ...
- echarts词云图形状_用Python 3.8绘制词云图就这么20行代码
艾莎为了寻找父母遇难的真相,以及自己魔力的来源,她与安娜.克斯托夫.驯鹿斯特与雪宝一行远走阿伦戴尔王国,去北方寻找这两个问题的答案,途中发生了一些冒险故事-- 电影<冰雪奇缘2>无论是美轮 ...
- 去除停用词并绘制词云图
简单处理数据后绘制词云图 以前看见词云图完全没想过它是怎么做出来的,现在才知道Python是可以画词云图的,而且非常简单,只要数据处理好. # -*- coding: gb2312 -*- #codi ...
- 根据词频、背景图绘制词云图
根据词频.背景图绘制词云图 记录一下绘制词云图的过程 首先说明一下,绘制词云图完整的过程应如下: 获取一段文本,也就是要根据这个文本来绘制词云图 制作停用词词典,简单来说,停用词就是分词的规则,例如, ...
最新文章
- blob二进制显示在html,使用Blob获取图片并二进制显示实例页面
- LeetCode 965	 Univalued Binary Tree--判断二叉树的所有节点的值是否相同--python,java解法
- jquery的checked以及disabled
- Java多线程系列--“JUC原子类”03之 AtomicLongArray原子类
- Boost::Flyweight 基本示例
- stm32cubeide ST-LINK_gdbserver _ZTINSt8ios_base7failureB5cxx11E libstdc++.so.6问题解决
- 数组声明为public final static缺陷
- orcale实现自定义优先级排序的SQL
- java 类型转换 安全_JAVA 类型转换指令
- 【AI视野·今日Sound 声学论文速览 第三期】Wed, 20 Apr 2022
- Java基础之写文件——使用Formatter对象加载缓冲区(UsingAFormatter)
- 模电:集成运算放大器2
- Sicily1059-Exocenter of a Trian
- SCI论文攻略---完整版!!!!
- IOS 利用运行时机制来进行归档解档
- 复杂网络分析(三)(UCINET)
- 模拟微信公众号回调请求
- 在 Linux 中安装 rar unrar
- 2021年西式面点师(中级)免费试题及西式面点师(中级)作业考试题库
- 尚学堂(java)1到13章所有练习题答案详解