使用词云进行中文分词后的可视化
词云是我们在文本挖掘过程中常用的一种可视化方法。对于中文来说,我们需要西安进行分词,再生成词云,以下先给出我用来生成词云的这段话:
在研发团队中,根据木桶原理,真正体现团队技术能力的人是团队中力量最弱的开发者。不怕神一样的对手,就怕猪一样的队友,说的就是如此。
但是,打造精英团队往往是个伪命题。对很多团队而言,薪酬,待遇,福利等诸多局限,使得我们很难与那些顶尖或准顶尖的公司竞争。我们往往是二三流的团队来完成一流的事情。但是,人才是可以培养的,团队也是可以转变的。
如何转变?除了前面谈到的ABC之外,就是团队的新陈代谢了。在战场上,一个战士的受伤往往意味着损失2~3个战斗力。在开发过程中,一个人挖的坑,恐怕两个人可以填干净就不错了。劝退有可能是一种对双方都好的结果。末位淘汰尽管有些残忍,但往往是对双方的负责。
引进高手的直接手段就是招聘了。当你向HR提招聘需求的时候,不要仅仅给出一个JD,应该有更清楚的目标画像,例如毕业于怎样的院校,最好在哪些公司工作等等。这样,HR的伙伴才能够有的放矢,甚至通过猎头完成定向招聘。
总之,研发管理要具备人才培养和人才引进的能力,一切的竞争,归根到底都是人的竞争。
我们对这段文字建立词云的代码如下:
# -*- coding: utf-8 -*-
"""
Created on Mon Jan 28 17:32:00 2019@author: chendile
"""import matplotlib.pyplot as plt
from wordcloud import WordCloud #词云库
from PIL import Image
import numpy as np
import jieba #用于中文分词的库font = "C:/Windows/Fonts/msjhbd.ttc"
abel_mask = np.array(Image.open("E:/笔记集合/text-mining/词云代码及图片/timg.jpg"))
text_from_file_with_apath = open('E:/笔记集合/text-mining/词云代码及图片/ciyun.txt','r',encoding='utf8').read()
print(text_from_file_with_apath)wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all = True)
wl_space_split = " ".join(wordlist_after_jieba)
print(wl_space_split)my_wordcloud = WordCloud(collocations=False, font_path=font, max_font_size=70,
max_words=1000, margin=5,background_color="pink", mask=abel_mask,colormap='hot').generate(wl_space_split)
#wordcloud里的参数设置是重中之重了,这个在wordcloud的官方文档上有很详细的解释
#color_func=lambda *args, **kwargs: "lightgreen",这个属性优先级比colormap要高,可把单词都设置为同色
#这个参数设置为0时,词的大小只和词频排序有关系,设置为1时,字体大小将是其词频的两倍,relative_scaling=1
#mask参数可以帮助词云附着在图片上
#colormap可以设置不同的词映射的颜色,wordcloud会为每个单词随机生成一个数字,根据colormap映射为颜色,然后显示,但这个不能根据词频大小来映射,colormap和matlab中的一致
print(my_wordcloud)plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()
下面是通过改变wordcloud的参数画出的几种不同的词云:
纯色词云:
colormap设置为hot的词云:
colormap设置为jet的词云:
colormap设置为spring的词云:
考虑词频数值而不仅考虑词频排序的词云:
几个重点:
1、最好是把txt文件存为utf-8格式,这样比较方便读取中文,并且注意在调用open函数时解码。你也可以存为ANSI格式,然后通过设置’rb’属性来以二进制格式读取,
但这样可能中文会显示为ANSI码,不能正确显示;
2、你可能能够正确读取中文,并且正确分词,但是wordcloud可能不能正确显示中文,因此图片中的中文都会显示为框框,没有文字。这是因为其默认字体是英文的,无法识别
中文,需要修改字体文件的路径,找到一个你比较喜欢的中文字体,找到它在你的系统中的路径,将font_path设置为这个路径,即可在图片中显示中文;
3、如果你想生成跟图片同样形状的词云,可以通过mask参数+PIL读取image实现,但是请注意你不想要的形状部分最好是白底或无背景,否则只要有一点颜色,词云就会
识别为可以填充词的区域,从而不能很好地显示出词云的形状;
4、将max_font_size稍微设置大一点,同时margin稍微设置得小一点,有助于词云的显示更接近image的轮廓。
#参考链接:
http://amueller.github.io/word_cloud/references.html;
https://blog.csdn.net/wireless_com/article/details/60571394;
https://zhidao.baidu.com/question/941678212532211692.html;
https://blog.csdn.net/qlj061001/article/details/78968273;
使用词云进行中文分词后的可视化相关推荐
- 中文分词后去除停用词
中文分词后去除停用词 当我们利用jieba进行中文分词时,主要是句子中出现的词语都会被划分,而有些词语是没有实际意思的,对于后续的关键词提取就会加大工作量,并且可能提取的关键词是无效的.所以在分词 ...
- Java实现敏感词过滤 - IKAnalyzer中文分词工具
IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包. 官网: https://code.google.com/archive/p/ik-analyzer/ 本用例借助 I ...
- Python词云#疫情退去后,你最想做什么
"等疫情过去,等我回家,抱抱爸妈,拉着他们去河边散步,听他们唠叨,再也不还嘴.我爱你们,希望你们知道." "去公园跑步高呼,太憋了,人都要发霉了." " ...
- python中文词云图代码_python词云图与中文分词
2019-12-12中文文本分词和词云图具体功能介绍与学习代码: import jieba a="由于中文文本的单词不是通过空格或者标点符号来进行分割" #jieba.lcut() ...
- 基于python的词云生成-中文词云(指定词云形状)
基于python的词云生成(二) 1.简介 本文是在基于python的词云生成(一)的基础上,进一步对云词进行编写,本文还使用了jieba分词对中文进行分词处理,以做出更好的效果. jie ...
- go基于阿里云实现中文分词
API介绍 由于阿里云服务SDK方式调用只提供了JAVA和Python,用go就只能使用普通HTTP请求调用 阿里云NLP基础服务 API概览 获取AccessKey 中文分词(基础版)API 公共参 ...
- html生成word附带图片_生成词云的几种方式对比
在数据可视化方面,词云一直是一种视觉冲击力很强的方式.对输入的一段文字进行语义分割,得到不同频度的词汇,然后以正比于词频的字体大小无规则的集中显示高频词,简洁直观高效. 词云虽好,但也要易做才行.本文 ...
- 词云库学习--python习题
下载后打开命令行,使用cd命令切换到该文件的路径,执行pip install wordcloud 目录 1号词云:葛底斯堡演说黑色背景词云(文字部分:and that government of th ...
- 词云可视化:四行Python代码轻松上手到精通
词云可视化:四行Python代码轻松上手到精通 文章目录 词云可视化:四行Python代码轻松上手到精通 本课概要 关于本课程 `粉丝答疑交流QQ群:953712961` `微信赞赏码` 不需要写代码 ...
最新文章
- QT的QFileOpenEvent类的使用
- PHP_Mysql注入防护与绕过
- eclipse导入远程库的git项目
- 大话数据结构 :排序
- 疯狂html5+css3+javascript讲义 pdf_成为一名优秀的HTML5前端工程师需要掌握哪些技能?...
- SQL中的存储过程中的事务处理。备忘
- mysql python is not installed_最全的解决安装MySQL-Python出现的问题: pip install MySQl-Python 出现:下列问题...
- Linux命令行下抓取HTTP流量的工具--httpry
- 本周四直播预告(内含福利)丨 经典知识库:MGR原理介绍与案例分享
- 无线打印机 连接路由器连接到服务器,怎么通过无线路由器连到有的打印机线网络...
- 监视和调整Linux网络协议栈:发送数据
- Oracle学习总结(8)—— 面向程序员的数据库访问性能优化法则
- Spring Cloud中关于@EnableFeignClients注解的属性字段basePackages
- 制作.bat文件快速启动Mongo服务
- 拿着 22 万美元年薪,混得还不如实习生?
- 无SSH工具部署网站到火腿云
- python独立环境——virtualenv
- Ajax到底是什么?
- [10秒学会] - iOS录制屏幕 ReplayKit
- Win7服务器搭建实例教程:教你Win7如何搭建Web服务器【转载】