一年一度的端午节马上就要到来了,农历的五月初五作为我国的一个传统节日,小朋友们都会忙着吃粽子、赛龙舟,当然,最诱人的还是放假喽……约三五好友,游历祖国大江南北,无不惬意……可是我们大家熟知的端午节跟我国历史上一位著名人物屈原有着很紧密的联系(想知道这段历史,大家自行提问哦,这不是本文的重点)。今天,我们主要对这位伟大人物的一部巨著《离骚》进行分析,利用Python中WordCloud库生成该部巨著中常用词的词云图,来进一步了解这位伟大人物。

端午节与屈原

关于屈原《离骚》的写作背景及意义,大家自行提问。本文关键对《离骚》内容进行分析,分析思路很简单,主要是以下几个步骤:

【第一步】获取《离骚》原文并对原文数据进行清洗【第二步】对《离骚》原文进行分词统计【第三步】对《离骚》中多频词出现次数进行词云展示【第四步】简要分析词云结果现在我们分步骤逐个击破……

【第一步】获取《离骚》原文并对原文数据进行清洗

将《离骚》文章及翻译内容下载后保存到本地,文件名为filename。

content_lst = []try:with open(filename, 'r') as f_r: for item in f_r.readlines(): content_lst.append(item.split('(')[0].strip())except FileExistsError as error: print(str(error))

将文件去除翻译及换行符后保存在本地(为了说明留下这一步,程序中不用保存在本地)。

try:with open('lisao_clean.txt', 'w') as f_w: f_w.write(''.join(content_lst))except Exception as e: print(str(e))

程序函数中直接返回数据即可。

对《离骚》原文及翻译进行处理

【第二步】对《离骚》原文进行分词统计

首先,将文本中标点符号去除,代码如下:

pattern = re.compile(r',|:|;|,|。|\?|?|!|「|、|《|》|!')re.sub(pattern, '', content)

然后利用jieba库进行分词操作,并使用collections库中的Counter()方法返回每个词语的词频信息。

jb_cut = jieba.cut(content)collections.Counter(list(jb_cut)

【第三步】对《离骚》中多频词出现次数进行词云展示

使用词云展示词频信息

path_image = 'bg.jpg'font_path = "STHUPO.TTF"background_image = np.array(Image.open(path_image))wd = WordCloud(width=1024, height=800, max_font_size=500, random_state=10, font_path=font_path, background_color="white", mask=background_image).generate_from_frequencies(d_content)wd.to_file('lisao.png')plt.imshow(wd, interpolation="bilinear")plt.axis("off")plt.show()

【第四步】简要分析词云结果

程序运行后词云结果如图所示。

《离骚》词云图

此文可以分析出以屈原为代表的一些楚辞作者的作品特色,因为《离骚》是一篇很经典的楚辞代表作。程序中可以得出《楚辞》的语句一些特色:句子参差不齐(jieba库分句时剪切词句无规律可循),多用“兮”、“之”等助词,停顿多。可以作为学习古汉语、文言文等专业的参考。谨以此文纪念伟大的屈原!祝朋友们端午节假期快乐……

转载请注明出处(百家号:Python高手养成)

python分析热点词汇_使用Python分析屈原《离骚》中高频词并生成词云图相关推荐

  1. python过滤敏感词汇_利用Python正则表达式过滤敏感词的方法

    利用Python正则表达式过滤敏感词的方法 问题描述:很多网站会对用户发帖内容进行一定的检查,并自动把敏感词修改为特定的字符. 技术要点: 1)Python正则表达式模块re的sub()函数: 2)在 ...

  2. python职业规划书_基于Python数据分析做职业规划

    1.Situation项目背景 为朝着数据分析方向发展,利用假期时间自学了Python,想利用所学Python知识独立完成一个包含数据挖掘.数据分析.数据可视化的项目,与此同时希望项目结果可以帮助我更 ...

  3. 豆瓣用python写的网站_用python写一个豆瓣短评通用爬虫(登录、爬取、可视化)

    原创技术公众号:bigsai,本文在1024发布,祝大家节日快乐,心想事成. @ 前言 在本人上的一门课中,老师对每个小组有个任务要求,介绍和完成一个小模块.工具知识的使用.然而我所在的组刚好遇到的是 ...

  4. python水浒传名字次数_基于Python的《水浒传》中人物分析

    基于 Python 的<水浒传>中人物分析 ◆杨旭东 [摘 要] 摘要:随着大数据技术的应用领域不断扩大,信息量也在日益膨胀, 而有价值的信息是有限的,利用文本挖掘技术可以高效地获取长文本 ...

  5. python单词词频字典_用python实现词频分析+词云

    2020.05.13更新:大家点个赞再收藏吧(点赞后观看,养成好习惯)TAT 如你所见.文章标题图是以 周杰伦的百度百科 词条为分析文档,以 周杰伦超话第一的那张图+PPT删除背景底色 为词频背景进行 ...

  6. 吃鸡是python写的吗_用Python来P图,分析怎么吃鸡?只有想不到,没有做不到

    只有想不到,没有做不到,用python可以做哪一些有趣的事情呢?一起来看看吧! 1.词云 用Python读取极品家丁小说,分词后展示词云. 2. 分析了70多万场绝地求生的比赛数据,总结出独家吃鸡攻略 ...

  7. python朋友圈数据分析_基于Python的微信朋友圈数据可视化分析之地点

    前提 朋友圈的相关数据请参照上一篇文章<基于Python的微信朋友圈数据可视化分析之个性签名>获取,本篇文章默认需要的数据已经下载保存至本地的 csv 文件中了. 将好友的地点按照省份进行 ...

  8. python异常值处理实例_利用Python进行异常值分析实例代码

    前言 异常值是指样本中的个别值,也称为离群点,其数值明显偏离其余的观测值.常用检测方法3σ原则和箱型图.其中,3σ原则只适用服从正态分布的数据.在3σ原则下,异常值被定义为观察值和平均值的偏差超过3倍 ...

  9. python删除异常值代码_利用Python进行异常值分析实例代码

    前言 异常值是指样本中的个别值,也称为离群点,其数值明显偏离其余的观测值.常用检测方法3σ原则和箱型图.其中,3σ原则只适用服从正态分布的数据.在3σ原则下,异常值被定义为观察值和平均值的偏差超过3倍 ...

  10. 1800个python词汇_基本 Python 词汇

    本文档介绍了要理解"使用 Python 进行地理处理"的帮助文档需要掌握的一些词汇. 术语说明 ! PythonPython 是由 Guido van  Rossum 在上世纪八十 ...

最新文章

  1. Centos6.3下利用changepassword修改samba账户密码
  2. maven setting.xml配置说明
  3. linux 给用户tmp权限,linux用户以及权限
  4. scikit-learn Adaboost类库使用小结
  5. 纪中2018暑假培训day3提高a组改题记录(混有部分b组)
  6. Unity BZip2压缩和解压,基于C#
  7. 计算机专业英语书本笔记,英语语言学概论笔记《全集》.doc
  8. 2016校招腾讯研发岗笔试题---递归法求解格雷码
  9. Dapr + .NET 实战(五)Actor
  10. ASP.NET Core跨域设置
  11. Spark streaming 概述
  12. centos 安装sublime3
  13. PowerDesigner(三)-企业架构模型
  14. QT禁用“最大化按钮“和“禁止调节窗口大小“
  15. 今天用pro安装nginx+php+mysql出现故障的解决方法
  16. 莫比乌斯函数(bzoj 1101: [POI2007]Zap)
  17. 利用ajaxSubmit()方法实现Form提交表单后回调
  18. 数据库习题(填空题四)
  19. Flash游戏开发必备书籍
  20. 最小二乘法曲线拟合(代码环境:matlab)

热门文章

  1. k8s一键安装redis单机版
  2. 原来这就是我们买不起房的原因!
  3. DragGAN使用记录
  4. ARM处理器异常返回地址
  5. 广东全国计算机报名系统官网,2019年广东计算机考试报名入口
  6. 一直在用、超好用的Markdown笔记工具Typroa 改变字体颜色快捷键设置
  7. ACL2021_Learning from Miscellaneous Other-Class Words for Few-shot Named Entity Recognition
  8. 解决no st-link detected问题
  9. dwg如何转换成pdf,5种方法轻松搞定
  10. 程序员思维-带你解读嫦娥奔月