本文主题:如何从文本挖掘来解读许巍?

字数:1378  |  原创作者:大志,公众号:妃烟

利用上班之余的空闲时间,我整理了许巍50首歌曲的歌词并做了一些处理。那么作为一名菜鸟级别的数据分析师,利用数据分析,让我们一起来看看许少年,到底是个什么样子的少年?

首先,我将50首歌词txt文本读取到R中,并利用jiebaR包进行了分词,去除掉一些语气词,并选取字段在2-6个字符的词语。

共分解了4439个满足上述条件的词语(未去重)

进行分词结果的频次统计并降序排列,选取频次在前50名的词语,并使用woldcloud2包进行云图设计。

可以看到,在许少年的歌词中,出现频次最多的两字词语为“世界”,其次为“我们”/“温暖”/“感觉”/“阳光”………..

在写这篇文章的前一天晚上,巍迷瑶旭旭来北京并"被我睡了一下",我们聊起了少年的歌。少年的歌磅礴大气,不拘泥于儿女长情,更多的是抒发他对自然/生活/爱情/世界的温暖与感悟,喝茶不写茶,爱情不谈爱,但却是真实又让人感动。

那么少年最喜欢哪个季节呢?铁粉们一定都知道,当然是………

没错,春天。在50首歌曲中,“春天”共出现了27次,“秋天”共出现了17次。为什么老许喜欢春天?大概是因为那首,美人一直是他的春天吧......

其次,我统计了从1997年-2017年之间,少年出专辑的时间与歌曲数量。分别为1997年《在别处》、2000年《那一年》、2001年《我只有两天 许巍精选》、2002年《时光漫步》、2004年《每一刻都是崭新的》、2006年《在路上》、2008年《爱如少年》、2012年《此时此刻》。

1997-2017 许巍发行专辑趋势

可以看到,每张专辑的歌曲数量平均在10首,少年在06年之前,每张专辑的发布时间间隔较短,06年之后时间间隔变长。但这并不能影响我们对少年的期待,慢工出细活嘛,少年的《爱如少年》和《此时此刻》可谓是是极品中的极品,百听不厌。

最后一个是我预测今年新专辑的出版时间与歌曲数量,我预测在18年的5月,发布10首歌曲,大家没事的话可以一起来预测试试看。

最后,是对少年歌词的情感分析。少年在00年左右换上了抑郁症,并在02年左右逐渐康复。所以我将前两张专辑和最近两张专辑的歌词做个对照集,进行情感分析的比对。

2001年之前,少年的歌曲负面得分为405分,负面情绪占比59%;2008年之后,少年的歌曲正面得分为388.5分,正面情绪占比70%。

2001年之前,那时候的少年渴望生长,是个有欲望却处处不得意的北漂摇滚青年,在歌词中也能体现出少年当时的情感,沉重、无助、悲伤。

然而在2008年之后的歌曲词语频次统计中,却是另一番:

这时候的少年转变了曲风的同时,整个人也发生了变化。他更加热爱生命,拥抱世界,他的情感变化也从最初的不满改变为温暖、喜悦、沉默…….

以上为文本挖掘的内容,更为深入的分析我还在学习,希望下次能给大家带来不一样的成果。能用自己的一丢丢的专业知识来分析少年的歌词也是倍感荣幸,同时也深刻感受到了什么叫做站在巨人的肩膀上。

今日装*为止,我依旧是我,一个又酷又努力的女烟民。少年依旧是我喜欢的那个少年,一个胸怀如大海、烟雨任平生的少年。

- End -

 往期精彩内容整理合集 

2017年R语言发展报告(国内)

R语言中文社区历史文章整理(作者篇)

R语言中文社区历史文章整理(类型篇)

公众号后台回复关键字即可学习

回复 R                  R语言快速入门及数据挖掘 
回复 Kaggle案例  Kaggle十大案例精讲(连载中)
回复 文本挖掘      手把手教你做文本挖掘
回复 可视化          R语言可视化在商务场景中的应用 
回复 大数据         大数据系列免费视频教程 
回复 量化投资      张丹教你如何用R语言量化投资 
回复 用户画像      京东大数据,揭秘用户画像
回复 数据挖掘     常用数据挖掘算法原理解释与应用
回复 机器学习     人工智能系列之机器学习与实践
回复 爬虫            R语言爬虫实战案例分享

从文本挖掘来解读许巍相关推荐

  1. 从0到1 | 文本挖掘的传统与深度学习算法

    一.什么是文本挖掘? 讨论文本挖掘之前,我们要先说一下数据挖掘的概念,因为文本挖掘是数据挖掘的一个分支.数据挖掘(Data Mining)指从大量的数据中通过算法搜索隐藏在其中信息的过程.而文本挖掘就 ...

  2. 借助亚马逊S3和RapidMiner将机器学习应用到文本挖掘

    本挖掘典型地运用了机器学习技术,例如聚类,分类,关联规则,和预测建模.这些技术揭示潜在内容中的意义和关系.文本发掘应用于诸如竞争情报,生命科学,客户呼声,媒体和出版,法律和税收,法律实施,情感分析和趋 ...

  3. Paper之ACLEMNLP:2009年~2019年ACL计算语言学协会年会EMNLP自然语言处理的经验方法会议历年最佳论文简介及其解读

    Paper之ACL&EMNLP:2009年~2019年ACL计算语言学协会年会&EMNLP自然语言处理会的经验方法会议历年最佳论文简介及其解读 目录 ACL计算语言学协会年会& ...

  4. 计算机如何读懂“人话”?五分钟了解文本挖掘那些事儿

    作者简介: 陈运文,达观数据创始人 & CEO,国际计算机学会(ACM)会员. 陈运文博士毕业于复旦大学计算机专业,目前是国际计算机学会(ACM)会员和中国计算机学会(CCF)高级会员,拥有多 ...

  5. SemEval-2020自由文本关系抽取冠军方案解读 (附NLP竞赛常用技巧总结)

    本文将回顾平安人寿近期在PaperWeekly × Biendata直播间进行的主题为「SemEval-2020自由文本关系抽取冠军方案解读(附NLP竞赛常用技巧总结)」的技术分享,由平安人寿AI团队 ...

  6. 500篇干货解读人工智能新时代

    500篇干货解读人工智能新时代 本文主要目的是为了分享一些机器学习以及深度学习的资料供大家参考学习,整理了大约500份国内外优秀的材料文章,打破一些学习人工智能领域没头绪同学的学习禁锢,希望看到文章的 ...

  7. 解读数据分析是神马?

    1.什么是数据分析/挖掘 数据分析/挖掘的目的是为业务发展答疑解惑.他描述了"过去发生了什么"."现在正在发生什么"和"未来可能发生什么". ...

  8. 解读:通过挖掘股票内在特征预测股票趋势

    写在前面 下面这篇文章的内容主要是来自发表于KDD2019的一篇文章<Investment Behaviors Can Tell What Inside: Exploring Stock Int ...

  9. CMeKG代码解读(以项目为导向从零开始学习知识图谱)(一)

    作者从零开始学习和知识图谱有关技术和内容,而本文的核心内容是对CMeKG的python代码进行学习和解读,供大家讨论参考共同进步. CMeKG(Chinese Medical Knowledge Gr ...

最新文章

  1. 分分钟一键部署Zabbix Server
  2. FormsAuthenticationTicket基于forms的验证
  3. C#LeetCode刷题之#190-颠倒二进制位(Reverse Bits)
  4. 实现跨域访问---同源策略 、常见跨域方法
  5. C++之指针探究(五):数组指针和二维数组
  6. 关于WEB集群中文件服务器的讨论
  7. csrf token invalid什么意思_Spring Cloud Gateway 实现Token校验
  8. 思步网6月底再次重磅出击:《CrystalBall User Manual 7.3(水晶球操作手册7.3)中英文对照版》
  9. js去除字符串空格(空白符)
  10. 用户增长——AARRR模型
  11. ADO数据库访问技术
  12. 国内云市场,腾讯云、阿里云、华为云,谁能更胜一筹呢?
  13. 湫湫系列故事——减肥记Ⅰ
  14. 第一章第二题(显示五条消息)(Display five messages)
  15. 物联网网线POE供电主控设计方案
  16. B,BL指令的使用范围
  17. 如何将图片上的文字识别成可修改的文本
  18. vue根据表格分页,前端实现方法
  19. 机器人10大流行编程语言
  20. 艺术学毕业论文题目【最新】

热门文章

  1. 选择专业要谨慎,不要跟风
  2. 二类电商是什么?二类电商具体如何赚钱?
  3. input取消焦点 vue_Vue中自动获取input焦点
  4. WebBrowser控件使用详解
  5. wps 使用中文ID
  6. fastTime格式化时间
  7. Gaussian 光束及其计算
  8. linux dns子域委派,bind服务器子域委派
  9. 台州学院第七届“星峰杯”大学生程序设计竞赛
  10. VB中CopyMemory函数