使用python中的结巴分词作词云图,对微信功能点进行辅助分析
工作室任务:基于知乎评论,分析微信功能点,做一次分享会。
一、原料和准备
1.从网上爬虫的文档,保存为txt文档,本例来源https://www.zhihu.com/question/23178234?from=groupmessage&isappinstalled=0&utm_medium=social&utm_source=wechat_session
2.停用词表(网上可搜索到。txt文档)
3.结巴工具(参看网上下载安装方法,小白最好用pycharm编辑器)
4.做词云的工具:
第一种, TAGUL, https://tagul.com/ 一款在线词云制作工具,非常简单(但是多英文很友好,中文需要在window里找到字体)。
第二种,Tagxedo:http://www.tagxedo.com/ 有几大优点:强大的导入功能(可导入网页、文字等)、自定义设置词云形状(这个真心好)等等,最重要的是它支持中文。
二、过程
import jieba.analysepath = 'D:\python\\view.txt' #网络爬虫文档
file_in = open(path, 'rb')
content = file_in.read()try:jieba.analyse.set_stop_words('D:\python\dict.txt') #停用词表地址tags = jieba.analyse.extract_tags(content, topK=100, withWeight=True)for v, n in tags:#权重是小数,为了凑整,乘了一万print(v + '\t' + str(int(n * 10000)))finally:file_in.close()
程序运行结果:
C:\Users\Sakura\AppData\Local\Programs\Python\Python36-32\python.exe D:/python.(pycharm)edit/untitled/111111.py
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Sakura\AppData\Local\Temp\jieba.cache
Loading model cost 1.328 seconds.
Prefix dict has been built succesfully.
朋友圈 2738
微信 1851
功能 1302
好友 821
可以 767
屏蔽 755
删除 658
分组 560
消息 548
聊天记录 531
语音 523
聊天 472
希望 440
QQ 394
订阅 379
评论 335
添加 319
对方 315
已读 314
信息 314
公众 299
一个 292
群聊 290
一键 271
发送 257
增加 257
表情 255
回复 254
图片 253
时候 236
转发 230
内容 230
提醒 225
自动 217
文章 215
设置 209
朋友 208
头像 206
或者 189
看到 188
手机 187
分享 182
自己 174
模式 168
点赞 166
不想 163
不能 160
文字 160
夜间 160
对话框 158
提示 157
代购 148
有个 148
查看 144
用户 144
别人 144
搜索 142
匿名 142
照片 142
... 141
置底 141
不是 140
界面 139
账号 139
可见 135
群里 135
对话 134
视频 133
自定义 132
推送 132
这个 128
标签 128
批量 127
一样 125
需要 125
通讯录 125
qq 123
未读 123
每次 123
现在 122
真的 122
保存 119
打开 118
这样 118
选择 116
比如 114
不要 113
显示 111
class 111
知乎 111
记录 110
阅读 109
应该 108
浏览 108
知道 104
方便 104
按钮 103
所有 101
红包 99
小视频 98Process finished with exit code 0
三、词云制作
本次选择使用的Tagxedo:http://www.tagxedo.com/
需要注意的是:粘贴文本时,关键词之间需要使用制表符或者回车键分开。选了一个普通的圆形。
使用python中的结巴分词作词云图,对微信功能点进行辅助分析相关推荐
- python处理数据集并制作词云图
python处理数据集并制作词云图 处理数据 使用自定义词典 去掉停用词 词频统计 绘制词云图+美化 1.处理数据 这里是老师给的新闻数据集,里面有5个类别的新闻数据,我以cars这一类为例. 将cs ...
- 结巴分词python安装_“结巴”分词:做最好的Python分词组件
python 结巴分词学习 https://www.toutiao.com/a6643201326710784520/ 2019-01-06 10:14:00 结巴分词(自然语言处理之中文分词器) j ...
- Py之wordcloud:python中非常有趣的词云图wordcloud简介、安装、使用方法、案例应用详细攻略
Py之wordcloud:python中非常有趣的词云图wordcloud简介.安装.使用方法.案例应用详细攻略 目录 wordcloud简介 wordcloud安装 wordcloud使用方法 案例 ...
- python官网中cloudword在哪_Py之wordcloud:python中非常有趣的词云图wordcloud简介、安装、使用方法...
Py之wordcloud:python中非常有趣的词云图wordcloud简介.安装.使用方法.案例应用详细攻略 目录 wordcloud简介 构建词云的方法很多, 但是个人觉得python的word ...
- 解决在IDEA中进行结巴分词产生Exception in thread “main“ ExceptionInInitializerError at ()错误
问题描述: 在IDEA中进行结巴分词,报出如下错误: 从报错信息可以看出错误是由空指针异常引起的一个ExceptionInInitializerError错误,习惯性的没去分析就把错误往百度上一粘贴, ...
- 怎样开启计算机自动更新功能,电脑微信中的有更新时自动升级微信功能如何设置开启...
电脑微信中的有更新时自动升级微信功能如何设置开启 腾讯视频/爱奇艺/优酷/外卖 充值4折起 今天给大家介绍一下电脑微信中的有更新时自动升级微信功能如何设置开启的具体操作步骤. 1. 打开电脑,找到桌面 ...
- python结巴分词 每个词一行,python结巴分词词云图
导入结巴分词 from wordcloud import WordCloud import jieba # 词频计算 import jieba.analyse as analyse from scip ...
- Python爬虫入门-python之jieba库制作词云图
在简书上看了很多人分享高大上的词云图的制作,在研究了一番之后,决定自己也动手试一试,奈何小白一个,中间碰到问题老是卡壳老半天,写一写制作过程,啥什么忘了我再来看看. 在看了 向右奔跑大哥的文章后,知道 ...
- python中for循环缩进_Python减少循环层次和缩进的技巧分析
本文实例分析了Python减少循环层次和缩进的技巧.分享给大家供大家参考,具体如下: 我们知道Python中冒号和缩进代表大括号,这样写已经可以节省很多代码行数,但是可以更优化,尽可能减少循环的层次和 ...
最新文章
- 华为出鸿蒙是不是给人看的,谁来成为鸿蒙OS失去的“躯壳” 鸿蒙OS(HarmonyOS),在很多人眼中,是华为万物互联的起点,也是反抗之下诞生出的杰作,亦是中国科技史上重要的里程... - 雪球...
- 转-完成端口高效的三个原因
- 如何导入给定名称的模块为字符串?
- pythonjam怎么运行_第二十一天 PYTHON学习
- 【论文投稿】计算机学科部分核心期刊投稿攻略
- python3字典列表_python3入门(3)---列表、元组、字典、集合详解
- Mongodb千万级数据在python下的综合压力测试及应用探讨
- 聚划算百亿补贴上线新iPhone SE 售价2799元
- 4、Python-列表
- 第二节:Web前端-ASP.NET之C#基础
- vim插件command-t安装
- 【刘润五分钟商学院】-163生存,还是灭亡,没有中间态
- Python:实现Gale-Shapley盖尔-沙普利算法(附完整源码)
- 均方误差(MSE)和均方根误差(RMSE)和平均绝对误差(MAE)
- 用万用表测量NPN、PNP、NMOS、PMOS的好坏或分极
- linux bigendian未定义,big endian与little endian
- [Linux]学习笔记3:用户及文件权限管理
- Django模板语言循环字典
- 抖音如何能快速涨粉?
- Golang 期权 指标计算