工作室任务:基于知乎评论,分析微信功能点,做一次分享会。

一、原料和准备

1.从网上爬虫的文档,保存为txt文档,本例来源https://www.zhihu.com/question/23178234?from=groupmessage&isappinstalled=0&utm_medium=social&utm_source=wechat_session

2.停用词表(网上可搜索到。txt文档)

3.结巴工具(参看网上下载安装方法,小白最好用pycharm编辑器)

4.做词云的工具:

第一种, TAGUL, https://tagul.com/ 一款在线词云制作工具,非常简单(但是多英文很友好,中文需要在window里找到字体)。

第二种,Tagxedo:http://www.tagxedo.com/ 有几大优点:强大的导入功能(可导入网页、文字等)、自定义设置词云形状(这个真心好)等等,最重要的是它支持中文。


二、过程
import jieba.analysepath = 'D:\python\\view.txt' #网络爬虫文档
file_in = open(path, 'rb')
content = file_in.read()try:jieba.analyse.set_stop_words('D:\python\dict.txt') #停用词表地址tags = jieba.analyse.extract_tags(content, topK=100, withWeight=True)for v, n in tags:#权重是小数,为了凑整,乘了一万print(v + '\t' + str(int(n * 10000)))finally:file_in.close()

程序运行结果:

C:\Users\Sakura\AppData\Local\Programs\Python\Python36-32\python.exe D:/python.(pycharm)edit/untitled/111111.py
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Sakura\AppData\Local\Temp\jieba.cache
Loading model cost 1.328 seconds.
Prefix dict has been built succesfully.
朋友圈 2738
微信  1851
功能  1302
好友  821
可以  767
屏蔽  755
删除  658
分组  560
消息  548
聊天记录    531
语音  523
聊天  472
希望  440
QQ  394
订阅  379
评论  335
添加  319
对方  315
已读  314
信息  314
公众  299
一个  292
群聊  290
一键  271
发送  257
增加  257
表情  255
回复  254
图片  253
时候  236
转发  230
内容  230
提醒  225
自动  217
文章  215
设置  209
朋友  208
头像  206
或者  189
看到  188
手机  187
分享  182
自己  174
模式  168
点赞  166
不想  163
不能  160
文字  160
夜间  160
对话框 158
提示  157
代购  148
有个  148
查看  144
用户  144
别人  144
搜索  142
匿名  142
照片  142
... 141
置底  141
不是  140
界面  139
账号  139
可见  135
群里  135
对话  134
视频  133
自定义 132
推送  132
这个  128
标签  128
批量  127
一样  125
需要  125
通讯录 125
qq  123
未读  123
每次  123
现在  122
真的  122
保存  119
打开  118
这样  118
选择  116
比如  114
不要  113
显示  111
class   111
知乎  111
记录  110
阅读  109
应该  108
浏览  108
知道  104
方便  104
按钮  103
所有  101
红包  99
小视频 98Process finished with exit code 0

三、词云制作

本次选择使用的Tagxedo:http://www.tagxedo.com/

需要注意的是:粘贴文本时,关键词之间需要使用制表符或者回车键分开。选了一个普通的圆形。

使用python中的结巴分词作词云图,对微信功能点进行辅助分析相关推荐

  1. python处理数据集并制作词云图

    python处理数据集并制作词云图 处理数据 使用自定义词典 去掉停用词 词频统计 绘制词云图+美化 1.处理数据 这里是老师给的新闻数据集,里面有5个类别的新闻数据,我以cars这一类为例. 将cs ...

  2. 结巴分词python安装_“结巴”分词:做最好的Python分词组件

    python 结巴分词学习 https://www.toutiao.com/a6643201326710784520/ 2019-01-06 10:14:00 结巴分词(自然语言处理之中文分词器) j ...

  3. Py之wordcloud:python中非常有趣的词云图wordcloud简介、安装、使用方法、案例应用详细攻略

    Py之wordcloud:python中非常有趣的词云图wordcloud简介.安装.使用方法.案例应用详细攻略 目录 wordcloud简介 wordcloud安装 wordcloud使用方法 案例 ...

  4. python官网中cloudword在哪_Py之wordcloud:python中非常有趣的词云图wordcloud简介、安装、使用方法...

    Py之wordcloud:python中非常有趣的词云图wordcloud简介.安装.使用方法.案例应用详细攻略 目录 wordcloud简介 构建词云的方法很多, 但是个人觉得python的word ...

  5. 解决在IDEA中进行结巴分词产生Exception in thread “main“ ExceptionInInitializerError at ()错误

    问题描述: 在IDEA中进行结巴分词,报出如下错误: 从报错信息可以看出错误是由空指针异常引起的一个ExceptionInInitializerError错误,习惯性的没去分析就把错误往百度上一粘贴, ...

  6. 怎样开启计算机自动更新功能,电脑微信中的有更新时自动升级微信功能如何设置开启...

    电脑微信中的有更新时自动升级微信功能如何设置开启 腾讯视频/爱奇艺/优酷/外卖 充值4折起 今天给大家介绍一下电脑微信中的有更新时自动升级微信功能如何设置开启的具体操作步骤. 1. 打开电脑,找到桌面 ...

  7. python结巴分词 每个词一行,python结巴分词词云图

    导入结巴分词 from wordcloud import WordCloud import jieba # 词频计算 import jieba.analyse as analyse from scip ...

  8. Python爬虫入门-python之jieba库制作词云图

    在简书上看了很多人分享高大上的词云图的制作,在研究了一番之后,决定自己也动手试一试,奈何小白一个,中间碰到问题老是卡壳老半天,写一写制作过程,啥什么忘了我再来看看. 在看了 向右奔跑大哥的文章后,知道 ...

  9. python中for循环缩进_Python减少循环层次和缩进的技巧分析

    本文实例分析了Python减少循环层次和缩进的技巧.分享给大家供大家参考,具体如下: 我们知道Python中冒号和缩进代表大括号,这样写已经可以节省很多代码行数,但是可以更优化,尽可能减少循环的层次和 ...

最新文章

  1. 华为出鸿蒙是不是给人看的,谁来成为鸿蒙OS失去的“躯壳” 鸿蒙OS(HarmonyOS),在很多人眼中,是华为万物互联的起点,也是反抗之下诞生出的杰作,亦是中国科技史上重要的里程... - 雪球...
  2. 转-完成端口高效的三个原因
  3. 如何导入给定名称的模块为字符串?
  4. pythonjam怎么运行_第二十一天 PYTHON学习
  5. 【论文投稿】计算机学科部分核心期刊投稿攻略
  6. python3字典列表_python3入门(3)---列表、元组、字典、集合详解
  7. Mongodb千万级数据在python下的综合压力测试及应用探讨
  8. 聚划算百亿补贴上线新iPhone SE 售价2799元
  9. 4、Python-列表
  10. 第二节:Web前端-ASP.NET之C#基础
  11. vim插件command-t安装
  12. 【刘润五分钟商学院】-163生存,还是灭亡,没有中间态
  13. Python:实现Gale-Shapley盖尔-沙普利算法(附完整源码)
  14. 均方误差(MSE)和均方根误差(RMSE)和平均绝对误差(MAE)
  15. 用万用表测量NPN、PNP、NMOS、PMOS的好坏或分极
  16. linux bigendian未定义,big endian与little endian
  17. [Linux]学习笔记3:用户及文件权限管理
  18. Django模板语言循环字典
  19. 抖音如何能快速涨粉?
  20. Golang 期权 指标计算

热门文章

  1. 监测网页内容变化,推送钉钉机器人提醒
  2. 思科Netflow的设置
  3. Python 结合Ansible 把管理资产信息自动插入到CMDB中
  4. SpringBoot+Vue+ElementUI实现的JAVA快速开发平台
  5. Mac-XQuartz-linux
  6. Web前端工程师需要掌握的技能有哪些?
  7. 手机间零流量快速传输---微传
  8. CRMEB微信公众号安装说明
  9. 实现网站短信验证功能
  10. 杭州-上海 攻略初稿