2 c2 J" `4 f' [; c

【第一步】获取《离骚》原文并对原文数据进行清洗【第二步】对《离骚》原文进行分词统计【第三步】对《离骚》中多频词出现次数进行词云展示【第四步】简要分析词云结果现在我们分步骤逐个击破……

' Z2 S  y! a- H6 _) Q: K/ J

【第一步】获取《离骚》原文并对原文数据进行清洗

" F6 v& j: ?' i5 q

将《离骚》文章及翻译内容下载后保存到本地,文件名为filename。

2 Y1 `  i3 A7 _) m2 t0 J/ R% ^

content_lst = []try:with open(filename, 'r') as f_r:        for item in f_r.readlines():            content_lst.append(item.split('(')[0].strip())except FileExistsError as error:    print(str(error))1 R$ r& j, j5 X3 t7 K! u. m" p# l

将文件去除翻译及换行符后保存在本地(为了说明留下这一步,程序中不用保存在本地)。

& S8 |* K0 ^: b# t) |

try:with open('lisao_clean.txt', 'w') as f_w:        f_w.write(''.join(content_lst))except Exception as e:    print(str(e))7 i! R: ]) A6 ^' i

程序函数中直接返回数据即可。' `+ @. X% }4 ]

离骚是词吗 使用Python分析屈原《离骚》中高频词并生成词...-2.jpg (243.62 KB, 下载次数: 0)

2019-6-4 12:14 上传

* Z; |6 j- x) W对《离骚》原文及翻译进行处理

% a+ o* Y8 C: @7 X) A+ P3 Y+ h5 i

【第二步】对《离骚》原文进行分词统计+ a/ P1 K- Y5 E6 p) m* v/ p

首先,将文本中标点符号去除,代码如下:

. {  b, R: n3 V9 E1 |2 T1 I

pattern = re.compile(r',|:|;|,|。|\?|?|!|「|、|《|》|!')re.sub(pattern, '', content)5 O( R$ R3 w& K  o7 k# a5 c

然后利用jieba库进行分词操作,并使用collections库中的Counter()方法返回每个词语的词频信息。( k# m0 Y, ^4 R! |% ?  n

jb_cut = jieba.cut(content)collections.Counter(list(jb_cut)

6 M1 d" U# f. Q3 B' L% G& T: ]

【第三步】对《离骚》中多频词出现次数进行词云展示* N9 l9 ~: ^. q. J

使用词云展示词频信息- t$ y7 Y7 ?" R' ^5 a; U3 m( x

path_image = 'bg.jpg'font_path = "STHUPO.TTF"background_image = np.array(Image.open(path_image))wd = WordCloud(width=1024,    height=800,    max_font_size=500,    random_state=10,    font_path=font_path,    background_color="white",    mask=background_image).generate_from_frequencies(d_content)wd.to_file('lisao.png')plt.imshow(wd, interpolation="bilinear")plt.axis("off")plt.show()- w0 i' F2 G1 v+ R% |

【第四步】简要分析词云结果

, U9 }( K+ x/ l: w+ F! m

程序运行后词云结果如图所示。( X$ K. r# f, `) o

离骚是词吗 使用Python分析屈原《离骚》中高频词并生成词...-3.jpg (111.88 KB, 下载次数: 0)

2019-6-4 12:14 上传+ w+ b- u$ ?! l! D$ Q5 Z

《离骚》词云图3 T2 R  K* r9 e4 h

python高手养成百家号_离骚是词吗 使用Python分析屈原《离骚》中高频词并生成词...,电影,船舶买卖,中国船舶交易网,搜船论坛...相关推荐

  1. python高手养成百家号_拥有这件神器,菜鸟也可以成为数据分析大师(连载二)...

    上一篇文章我们带大家对词云自动生成工具的GUI界面框架进行了介绍,并对GUI界面使用的类NoteBook.Group.EntryField的常见使用方法进行了梳理.今天,我们带大家制作第一个页面:获取 ...

  2. python高手养成百家号_使用Python制作一个GUI界面,将随机生成的姓名存入到Excel文件中...

    前面内容,我们详细介绍了如何使用Python生成一定数量的随机姓名. 如何用Python生成若干个随机姓名?男女取名有方法,不能千篇一律 之前,也提到过,我们在一些项目中,需要若干个随机姓名,为了节省 ...

  3. python是什么品牌_“Python之窗”百家号有什么作用?企业品牌必须知道的推广渠道...

    备注:本文数据来自站长之家移动传媒平台,文章涉及的数据依托平台大数据计算所得,非百度官方数据,仅供参考. Python之窗是当前百家号中的普通号,目前账号百家号权重为2,综合排名位列784779名,科 ...

  4. python高手 百家号_别犹豫,美剧想看就看,手把手教你用Python轻松获取经典美剧地址...

    最早一部<越狱>转变了我对美剧的看法.主人公scofield的聪明才智和坚强的毅力,<绝命毒师>里面主人公的中年逆袭,<纸牌屋>里面老谋深算的政客,等等,这些美剧和 ...

  5. python pandas教程百家号_python--学习笔记6 pandas

    from pandas import Series,DataFrame #注意大小写 import pandas as pd Series的字符串表现形式为:索引在左边,值在右边. 可以通过Serie ...

  6. python pandas教程百家号_Pandas 常见的基本方法

    说明:文章所有内容均截选自实验楼教程[Pandas 使用教程],想要查看教程完整内容,点击教程即可~ 前言: Pandas 是非常著名的开源数据处理工具,我们可以通过它对数据集进行快速读取.转换.过滤 ...

  7. fiddler软件+手机模拟器搭配抓包,这篇博客有Python爬虫与百家号的事

    本篇博客为爬虫120例第60例,核心内容围绕手机抓包展开,本片练习模拟器与 Fiddler 之间的搭配 . 选择模拟器的原因也很简单,由于很多抓包软件对安卓系统有版本要求,我们不能天天给手机更换系统, ...

  8. 剑网3分服务器还是微信,「剑网3是选月卡区好还是点卡区好」百家号

    「剑网3是选月卡区好还是点卡区好」百家号_作者自评: 如何看待百家号Lite小程序热议话题「剑网3是选月卡区好还是点卡区好」 这里是专注于有为青年游戏体验的敢为青年游场,我是敢哥!这个我觉得其实还是因 ...

  9. 方块盒子怎么打开java_「《我的世界》极少人知道MC“隐形方块”的秘密,迷你:藏得真深」百家号...

    「<我的世界>极少人知道MC"隐形方块"的秘密,迷你:藏得真深」百家号_作者自评: 如何看待百家号Lite小程序热议话题「<我的世界>极少人知道MC&quo ...

  10. 三星note8android 9.0,「适配于三星S8/S8+以及Note8的Android9.0的更新已经开始了」百家号...

    「适配于三星S8/S8+以及Note8的Android9.0的更新已经开始了」百家号_作者自评: 如何看待百家号Lite小程序热议话题「适配于三星S8/S8+以及Note8的Android9.0的更新 ...

最新文章

  1. VC中的TRACE宏:
  2. 每日一皮:叫你们别上泰坦尼克,嗓子都喊哑了!没一个听我的,最后还把我......
  3. 10Linux服务器编程之:opendir()函数,readdir()函数,rewinddir()函数,telldir()函数和seekdir()函数,closedir()函数
  4. Java多线程系列--“基础篇”09之 interrupt()和线程终止方式
  5. java数组二分查找的简单例题_Java基础-练习 数组元素二分查找(折半查找)
  6. 解决canvas画图模糊的问题
  7. Html5 各属性详解
  8. DPDK多线程:EAL pthread和lcore Affinity(F-Stack配置文件的配置参数:lcore_mask、lcore_list)
  9. 2021-2025年中国超细氢氧化铝行业市场供需与战略研究报告
  10. ubuntu linux设置网关,ubuntu修改静态IP网关
  11. 容器Docker详解
  12. linux测试libreoffice,LibreOffice 7.0 开放测试,最终版本将于8月初发布
  13. selenium获取新页面标签页(只弹出一个新页面的切换)
  14. FPGA 按键控制数码管
  15. 【CS229 Deep Learning笔记】二. 介绍:分类问题
  16. 基于MATLAB的说话人语音识别声纹识别系统
  17. 小波去噪程序c语言,else - 小波去噪c语言程序
  18. 微信扫码提示在浏览器中打开的2种实现方式
  19. 昨天见到了原来飘渺水云间(浙江大学BBS站)的FLASH版主小兵甲
  20. 传感器技术—新型光电传感器(学习笔记十 补充)

热门文章

  1. 计算机网络管理(第三版)雷震甲 课后习题及测试试题与答案
  2. 软考信息系统项目管理师全真模拟题(含解析)
  3. 互联网如何打造智慧医疗:边界确定价值
  4. 在座的各位来看看这些笔试题能答上几道,全答对怕不是大佬!
  5. android:使用XML文件定义菜单项的选项菜单
  6. 2021年企业申请科技项目补贴申报流程
  7. tornado: web.py 之 Application
  8. cocos creator 启动流程
  9. Twitter正在中国着
  10. 我安装kali linux之后要做的10件事