词云是我们在文本挖掘过程中常用的一种可视化方法。对于中文来说,我们需要西安进行分词,再生成词云,以下先给出我用来生成词云的这段话:

在研发团队中,根据木桶原理,真正体现团队技术能力的人是团队中力量最弱的开发者。不怕神一样的对手,就怕猪一样的队友,说的就是如此。
但是,打造精英团队往往是个伪命题。对很多团队而言,薪酬,待遇,福利等诸多局限,使得我们很难与那些顶尖或准顶尖的公司竞争。我们往往是二三流的团队来完成一流的事情。但是,人才是可以培养的,团队也是可以转变的。
如何转变?除了前面谈到的ABC之外,就是团队的新陈代谢了。在战场上,一个战士的受伤往往意味着损失2~3个战斗力。在开发过程中,一个人挖的坑,恐怕两个人可以填干净就不错了。劝退有可能是一种对双方都好的结果。末位淘汰尽管有些残忍,但往往是对双方的负责。
引进高手的直接手段就是招聘了。当你向HR提招聘需求的时候,不要仅仅给出一个JD,应该有更清楚的目标画像,例如毕业于怎样的院校,最好在哪些公司工作等等。这样,HR的伙伴才能够有的放矢,甚至通过猎头完成定向招聘。
总之,研发管理要具备人才培养和人才引进的能力,一切的竞争,归根到底都是人的竞争。

我们对这段文字建立词云的代码如下:

# -*- coding: utf-8 -*-
"""
Created on Mon Jan 28 17:32:00 2019@author: chendile
"""import matplotlib.pyplot as plt
from wordcloud import WordCloud  #词云库
from PIL import Image
import numpy as np
import jieba  #用于中文分词的库font = "C:/Windows/Fonts/msjhbd.ttc"
abel_mask = np.array(Image.open("E:/笔记集合/text-mining/词云代码及图片/timg.jpg"))
text_from_file_with_apath = open('E:/笔记集合/text-mining/词云代码及图片/ciyun.txt','r',encoding='utf8').read()
print(text_from_file_with_apath)wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all = True)
wl_space_split = " ".join(wordlist_after_jieba)
print(wl_space_split)my_wordcloud = WordCloud(collocations=False, font_path=font, max_font_size=70,
max_words=1000, margin=5,background_color="pink", mask=abel_mask,colormap='hot').generate(wl_space_split)
#wordcloud里的参数设置是重中之重了,这个在wordcloud的官方文档上有很详细的解释
#color_func=lambda *args, **kwargs: "lightgreen",这个属性优先级比colormap要高,可把单词都设置为同色
#这个参数设置为0时,词的大小只和词频排序有关系,设置为1时,字体大小将是其词频的两倍,relative_scaling=1
#mask参数可以帮助词云附着在图片上
#colormap可以设置不同的词映射的颜色,wordcloud会为每个单词随机生成一个数字,根据colormap映射为颜色,然后显示,但这个不能根据词频大小来映射,colormap和matlab中的一致
print(my_wordcloud)plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()

下面是通过改变wordcloud的参数画出的几种不同的词云:
纯色词云

colormap设置为hot的词云:

colormap设置为jet的词云:

colormap设置为spring的词云:

考虑词频数值而不仅考虑词频排序的词云:

几个重点:

1、最好是把txt文件存为utf-8格式,这样比较方便读取中文,并且注意在调用open函数时解码。你也可以存为ANSI格式,然后通过设置’rb’属性来以二进制格式读取,
但这样可能中文会显示为ANSI码,不能正确显示;
2、你可能能够正确读取中文,并且正确分词,但是wordcloud可能不能正确显示中文,因此图片中的中文都会显示为框框,没有文字。这是因为其默认字体是英文的,无法识别
中文,需要修改字体文件的路径,找到一个你比较喜欢的中文字体,找到它在你的系统中的路径,将font_path设置为这个路径,即可在图片中显示中文;
3、如果你想生成跟图片同样形状的词云,可以通过mask参数+PIL读取image实现,但是请注意你不想要的形状部分最好是白底或无背景,否则只要有一点颜色,词云就会
识别为可以填充词的区域,从而不能很好地显示出词云的形状;
4、将max_font_size稍微设置大一点,同时margin稍微设置得小一点,有助于词云的显示更接近image的轮廓。

#参考链接:
http://amueller.github.io/word_cloud/references.html;
https://blog.csdn.net/wireless_com/article/details/60571394;
https://zhidao.baidu.com/question/941678212532211692.html;
https://blog.csdn.net/qlj061001/article/details/78968273;

使用词云进行中文分词后的可视化相关推荐

  1. 中文分词后去除停用词

     中文分词后去除停用词  当我们利用jieba进行中文分词时,主要是句子中出现的词语都会被划分,而有些词语是没有实际意思的,对于后续的关键词提取就会加大工作量,并且可能提取的关键词是无效的.所以在分词 ...

  2. Java实现敏感词过滤 - IKAnalyzer中文分词工具

    IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包. 官网: https://code.google.com/archive/p/ik-analyzer/ 本用例借助 I ...

  3. Python词云#疫情退去后,你最想做什么

    "等疫情过去,等我回家,抱抱爸妈,拉着他们去河边散步,听他们唠叨,再也不还嘴.我爱你们,希望你们知道." "去公园跑步高呼,太憋了,人都要发霉了." " ...

  4. python中文词云图代码_python词云图与中文分词

    2019-12-12中文文本分词和词云图具体功能介绍与学习代码: import jieba a="由于中文文本的单词不是通过空格或者标点符号来进行分割" #jieba.lcut() ...

  5. 基于python的词云生成-中文词云(指定词云形状)

    基于python的词云生成(二) 1.简介    本文是在基于python的词云生成(一)的基础上,进一步对云词进行编写,本文还使用了jieba分词对中文进行分词处理,以做出更好的效果.    jie ...

  6. go基于阿里云实现中文分词

    API介绍 由于阿里云服务SDK方式调用只提供了JAVA和Python,用go就只能使用普通HTTP请求调用 阿里云NLP基础服务 API概览 获取AccessKey 中文分词(基础版)API 公共参 ...

  7. html生成word附带图片_生成词云的几种方式对比

    在数据可视化方面,词云一直是一种视觉冲击力很强的方式.对输入的一段文字进行语义分割,得到不同频度的词汇,然后以正比于词频的字体大小无规则的集中显示高频词,简洁直观高效. 词云虽好,但也要易做才行.本文 ...

  8. 词云库学习--python习题

    下载后打开命令行,使用cd命令切换到该文件的路径,执行pip install wordcloud 目录 1号词云:葛底斯堡演说黑色背景词云(文字部分:and that government of th ...

  9. 词云可视化:四行Python代码轻松上手到精通

    词云可视化:四行Python代码轻松上手到精通 文章目录 词云可视化:四行Python代码轻松上手到精通 本课概要 关于本课程 `粉丝答疑交流QQ群:953712961` `微信赞赏码` 不需要写代码 ...

最新文章

  1. QT的QFileOpenEvent类的使用
  2. PHP_Mysql注入防护与绕过
  3. eclipse导入远程库的git项目
  4. 大话数据结构 :排序
  5. 疯狂html5+css3+javascript讲义 pdf_成为一名优秀的HTML5前端工程师需要掌握哪些技能?...
  6. SQL中的存储过程中的事务处理。备忘
  7. mysql python is not installed_最全的解决安装MySQL-Python出现的问题: pip install MySQl-Python 出现:下列问题...
  8. Linux命令行下抓取HTTP流量的工具--httpry
  9. 本周四直播预告(内含福利)丨 经典知识库:MGR原理介绍与案例分享
  10. 无线打印机 连接路由器连接到服务器,怎么通过无线路由器连到有的打印机线网络...
  11. 监视和调整Linux网络协议栈:发送数据
  12. Oracle学习总结(8)—— 面向程序员的数据库访问性能优化法则
  13. Spring Cloud中关于@EnableFeignClients注解的属性字段basePackages
  14. 制作.bat文件快速启动Mongo服务
  15. 拿着 22 万美元年薪,混得还不如实习生?
  16. 无SSH工具部署网站到火腿云
  17. python独立环境——virtualenv
  18. Ajax到底是什么?
  19. [10秒学会] - iOS录制屏幕 ReplayKit
  20. Win7服务器搭建实例教程:教你Win7如何搭建Web服务器【转载】

热门文章

  1. 助力行业破局,苏宁多举措加速5G手机普及
  2. Spatial Reference
  3. python qq消息接收存储_用 Python 自动回复 QQ 消息,附源码!
  4. 批量跨帧提取人脸视频中的脸部区域帧图像python
  5. 铁路应急通信指挥方案
  6. android开发笔记之高通MSM8909编译刷机脚本
  7. HDMI之CEC通道
  8. java 数据加载到内存jvm中
  9. Ubuntu查看定时任务执行日志
  10. mtcnn人脸检测python_opencv+mtcnn+facenet+python+tensorflow 实现实时人脸识别