前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者: 听不来喊麦的C君

PS:如果你处于想学Python或者正在学习Python,Python的教程不少了吧,但是是最新的吗?说不定你学了可能是两年前人家就学过的内容,在这小编分享一波2020最新的Python教程。获取方式,私信小编 “ 资料 ”,即可免费获取哦!

这看起来不着边际的歌词,配上简单粗暴的蹦迪音乐。

最近,一首《惊雷》的喊麦歌曲在短视频平台火了,震惊了整个音乐圈。

但4月10日歌手杨坤却在直播中批评《惊雷》“要歌没歌,要旋律没旋律,要节奏没节奏,要律动没律动”,评价其“难听”、“俗气”。

4月11日,MC六道以原唱者的身份对杨坤的指责做出回应表示,音乐没有高低之分,称《惊雷》现在比杨坤的任何一首歌都火。一时间更是把《惊雷》推上了风口浪尖。

那么《惊雷》这首歌到底怎么样?都是哪些人在听?今天我们就用Python来给你解读。

01

拿下60亿流量 

喊麦歌曲《惊雷》火了!

说道喊麦,作为近年来一种新兴的表演形式,其内容和表达方式则比较简单和浮夸,主要形式是在网上下载一些伴奏(以电音伴奏为主),跟着伴奏以简单的节奏和朗朗上口的押韵手法进行的语言表演。

更简单的说法就是,演唱时不讲究什么技法,带着伴奏对着麦喊就完事。比如之前爆火的《一人我饮酒醉》就是很具代表性的喊麦歌曲。

而喊麦歌曲也因为一味堆积看似没有关联的词,闹腾的电音,简单粗暴的唱法等,让大家各种吐槽。而在“全民抵制”喊麦的背景下,《惊雷》却火了。

从今年3月起,以《惊雷》为BGM的短视频在各大平台上迅速走红。截止到4月24日,在抖音的#惊雷#的标签页下显示共有23w个视频作品使用,产生64.1亿次播放。

一些网友更是跟风录制了各种翻唱版本。温柔版、方言版、戏腔版、小黄人版、种类之多,只有你想不到,没有网友做不到。瞬间《惊雷》就成了今年度的网络爆款神曲之一。在B站上搜索《惊雷》更是可以看到大量的相关视频。

我们对B站上《惊雷》的各类视频进行整理分析发现:

在3月底,《惊雷》就在B站小火了一把,总播放量突破50万。接着到了4月12日,随着杨坤和MC六道的“隔空互掐”,大量《惊雷》相关视频如雨后春笋一般爆发出来,无论是音乐、游戏、生活、影视和鬼畜各视频分区产生的相关视频突破300个,播放量更是水涨船高。

02

“精神小伙”专属歌曲 

都是哪些人在听《惊雷》?

我们使用Python获取并分析了网易云音乐上,MC六道的这首《惊雷》相关的评论数据。

经过去重得到1534条样本,从而来分析一下《惊雷》这首歌的用户和评价信息。

先看到结论:

评论时间趋势图

首先看到评论的时间,可以发现评论的高峰时间主要集中在:

  • 中午12-13点左右;
  • 下午5点之后的下班下课时间;
  • 以及傍晚睡前9-10点

看来主要的听歌时间是在忙完工作的午休时,下班后的路上,以及睡前,刷着手机听听歌写写评论,也比较符合用户的听歌习惯。

评论用户性别分布

听歌的人群性别分布是如何的呢?经过分析发现,男性占比达到压倒性的67.08%,女性占比较少为16.43%,另外16.49%的用户没有标注性别。可见听《惊雷》的更多是男性群体。

评论用户年龄分布

分析发现,用户大多集中在14-30岁之间,以20岁左右居多,除去异常和虚假年龄之外,这个年龄分布也符合网易云用户的年龄段。

评论用户地区分布

从城市分布图中可以看出,评论用户涵盖了全国各大省份,其中广东的评论用户排名第一,其次是山东、河北、河南等省份。

根据网易云曾发布的音乐数据,北上广深等发达地带的用户对小众音乐情有独钟,这些城市聚集了大量的小众音乐用户,其中广东也是聚集了众多热爱电音的用户,堪称“最电音省份”。

同时我们查询了2019年全国各省份的人口排名,排名前三的省份是:广东、山东、河南,这个结果也与分布图较为吻合,果然还是人多力量大。

评论情感正负分布

那么评论中大家对《惊雷》更多是称赞还是吐槽呢?接着我们对评论区的留言进行了情感分析,使用的是百度的API。

我们定义了一个函数获取情感评分正向和负向的概率值,值介于[0,1]之前,越接近1,情感越偏向于积极,反之则越消极。

通过评论情感得分分布图,可以发现:

在1534条数据中,有780条数据评分分值在[0,0.05]之间,占比50.08%,有一半以上的用户对这首歌表达了非常厌恶的情绪。我们还看到,有227个样本的评分在0.95以上,属于非常正向,这些正向评论真的正向吗?

我们不妨看几条这些评论:

比如这一条:

谢谢,这首‘歌’我笑吐了

明显是属于负向的情绪,但是因为正向的关键词比较多,百度的情感分析程序给了0.97分,所以可以看出这里的正向评分也是有误差。

还有这一条:

突然感觉杨坤老师有点伟大

这首歌虽然是赞扬杨坤老师,但是放到这里是表达贬义,但是程序并没有判断出来,间接说明程序还是没有人聪明啊(拟合能力不足+汉语语境情况复杂)。

所以实际上大部分评论带着反讽的口吻,我们可以大胆推断,这首歌的负向情绪占比至少上升10~15%个百分点。

评论词云分布:

通过文本分析,可以看出大家对这首歌的评论集中对杨坤和MC六道的讨论上,吐槽点主要集中在关于歌曲的“难听”、“俗气”、"抄袭"等。同时也表达了对于“喊麦”和"音乐"的讨论上

03

教你用Python分析

网易云音乐《惊雷》的评论

我们使用Python获取并分析了网易云音乐上《惊雷2020》相关的评论数据并进行了以下部分处理和分析,整个分析过程分为以下几个步骤:

  1. 数据获取
  2. 数据读入与数据预处理
  3. 数据分析和可视化

01 数据获取

此次爬虫部分主要是调用官方API,本次用到的API主要是:

http://music.163.com/api/v1/resource/comments/R_SO_4_{歌曲ID}?limit={每页限制数量}&offset={评论数总偏移}

参数说明如下:

{歌曲ID}:歌曲ID

limit:限制每页获取的数据条数

offset:翻页参数偏移量,offset需要是limit的倍数

返回的数据格式为json,通过此接口目前每天获取的数据量限制是1000条,代码思路如下:

  1. 先获取一页的数据,并封装成解析函数parse_one_page
  2. 变化offset参数,循环构建URL,并调用解析函数

具体代码如下:

# 导入库
import requests
import json
import time
import pandas as pddef parse_one_page(comment_url):"""功能:给定一页的评论接口,获取一页的数据。"""# 添加headersheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.113 Safari/537.36'}# 发起请求r = requests.get(comment_url, headers=headers)# 解析数据comment_data = r.json()['comments']# 获取用户IDuser_id = [i['user']['userId'] for i in comment_data]# 获取用户昵称nick_name = [i['user']['nickname'] for i in comment_data]# 获取评论IDcomment_id = [i['commentId'] for i in comment_data]# 获取评论内容content = [i['content'] for i in comment_data]# 获取评论时间content_time = [i['time'] for i in comment_data]# 获取点赞liked_Count = [i['likedCount'] for i in comment_data]df_one = pd.DataFrame({'user_id': user_id,'nick_name': nick_name,'comment_id': comment_id,'content': content,'content_time': content_time,'liked_Count': liked_Count})return df_onedef get_all_page(song_id):"""功能:获取100页短评:目前接口一天最多获取数据量"""df_all = pd.DataFrame()for i in range(101):  # 最多100页url = 'http://music.163.com/api/v1/resource/comments/R_SO_4_{}?limit=10&offset={}'.format(song_id, i*10)# 调用函数df = parse_one_page(comment_url=url)# 循环追加df_all = df_all.append(df, ignore_index=True)# 打印进度print('我正在获取第{}页的信息'.format(i + 1))# 休眠一秒time.sleep(1)return df_allif __name__ == '__main__':# 惊雷song_id = '1431580747'# 运行函数df_jl = get_all_page(song_id)
获取到的数据如下所示,此次我们一共获取了两天的数据,经过去重得到1534条样本,来分析一下《惊雷》这首歌的用户和评价信息。获取的数据集主要包含了以下的信息:评论ID、用户ID、用户昵称、用户评论、评论时间、评论点赞。根据用户ID可以获取评论用户相关信息,此处暂不做赘述。

02 数据读入与数据预处理

此处,我们将对获取的评论数据集进行以下的处理以方便后续的分析:

  1. 读入数据和数据合并,去除重复值
  2. 评论时间:将评论时间转换为标准时间
  3. 用户评论:使用jieba分词对评论数据进行分词处理。

代码实现如下:

读入数据、合并、去重

评论时间处理

03 使用百度API进行情感分析

情感分析是NLP的重要部分。这里我们使用百度的API,来进行情感分析,经测试这个API接口结果相对比较准确。我们定义了一个函数获取情感评分正向和负向的概率值。返回结果解释:以正向概率positive_prob为例,值介于[0,1]之前,越接近1,情感越偏向于积极。

代码和结果如下:

# 异常值处理
df_comment['content'] = df_comment['content'].replace('												

拿下60亿流量的《惊雷》都是哪些人在听?python帮你统计出来相关推荐

  1. python 广告流量 爬虫_Python爬虫告诉你:拿下60亿流量的《惊雷》都是哪些人在听?...

    CDA数据分析师 出品 惊雷/通天修为/天塌地陷紫金锤 紫电/玄真火焰/九天玄剑惊天变 这看起来不着边际的歌词,配上简单粗暴的蹦迪音乐. 最近,一首<惊雷>的喊麦歌曲在短视频平台火了,震惊 ...

  2. python做的如何给别人用流量_Python告诉你:拿下60亿流量的《惊雷》都是哪些人在听?...

    原标题:Python告诉你:拿下60亿流量的<惊雷>都是哪些人在听? CDA数据分析师 出品 作者:Mika 数据:真达 后期:泽龙 [导语]:今天我们聊聊<惊雷>, Pyth ...

  3. 拿下60亿流量的《惊雷》都是哪些人在听?python帮你统计出来!

    这看起来不着边际的歌词,配上简单粗暴的蹦迪音乐. 最近,一首<惊雷>的喊麦歌曲在短视频平台火了,震惊了整个音乐圈. 但4月10日歌手杨坤却在直播中批评<惊雷>"要歌没 ...

  4. 哪些人在听 60 亿流量《惊雷》?Python 告诉你 | 原力计划

    作者 | 听不来喊麦的C君 来源 | CSDN博客 惊雷/通天修为/天塌地陷紫金锤 紫电/玄真火焰/九天玄剑惊天变 这看起来不着边际的歌词,配上简单粗暴的蹦迪音乐. 最近,一首<惊雷>的喊 ...

  5. Python告诉你,究竟都是哪些人在听《惊雷》!

    这看起来不着边际的歌词,配上简单粗暴的蹦迪音乐. 最近,一首<惊雷>的喊麦歌曲在短视频平台火了,震惊了整个音乐圈. 但4月10日歌手杨坤却在直播中批评<惊雷>"要歌没 ...

  6. 买iPhone13选某多多百亿补贴还是官网免息?我用Python帮你算好了!

    total=float(input('分期金额:')) date=int(input('分期月数:')) expectedRate=float(input('预计持有资金收益年利率:')) pddYo ...

  7. 正月初六 | 2月17日 星期二 | 快手体育拿下斯诺克赛事版权;华为推出“智慧养猪”方案;春节档总票房突破60亿元...

    国内要闻 1.快手与瑞盖传媒达成版权内容合作,快手成为斯诺克赛事独家短视频合作平台 2.小米电视发文回应春晚直播卡顿:内容合作伙伴服务器异常 3.华为推出"智慧养猪"方案,&quo ...

  8. TikTok电商去年赚了60亿?短视频的尽头是带货?

    据36氪2月27日的报道,36氪从多个信源处了解到,TikTok电商2021年GMV最高约60亿元,其中GMV占比约70%以上来自印度尼西亚,剩余不到30%来自英国.36氪另外了解到,TikTok电商 ...

  9. B站价值60亿跨年晚会背后的微服务治理

    B站价值60亿跨年晚会背后的微服务治理 大家都知道微服务有两个痛点,一个是如何拆分微服务,微服务的边界怎么划分制定:二是微服务上了规模之后如何管理,因为只要上了规模,任何小小的问题都可能会被放大,最后 ...

  10. 百亿流量微服务网关的设计与实现

    百亿流量微服务网关的设计与实现 本文从百亿流量交易系统微服务网关(API Gateway)的现状和面临的问题出发,阐述微服务架构与 API 网关的关系,理顺流量网关与业务网关的脉络,分享 API 网关 ...

最新文章

  1. 程序模拟抽奖流程图_一道与联欢会相关的概率统计题目的模拟仿真
  2. ubuntu修改主机名后无法解析主机
  3. 利用边缘检测计算物体面积(内含源码)
  4. UOJ #131 BZOJ 4199 luogu P2178【NOI2015】品酒大会 (后缀自动机、树形DP)
  5. 3D人脸识别预处理,3D face recognition preprocess
  6. 〖前端开发〗HTML/CSS基础知识学习笔记
  7. JAVA知识基础(四):深入理解static关键字
  8. Android相关资源
  9. Registry Size 提示注册表容量不够!
  10. Python Regular Expression
  11. ESRI.ArcGIS.Controls.AxMapControl
  12. MySQL函数、存储过程
  13. ignite集群的启动
  14. CAD打断线条的快捷键是什么?CAD打断线条教程
  15. win10打开图片提示:文件系统错误:(-805305975) 解决办法!
  16. 喝酒神器微信小程序源码 支持流量主解锁多人对战
  17. 前馈神经网络(FNN)
  18. 微信支付2.0版本,更换参数即可使用
  19. 计算机网络安全国际会议,2021年计算机网络安全与软件工程国际学术会议(CNSSE 2021)...
  20. 北京航空航天大学计算机系考研复试上机真题及答案---2014

热门文章

  1. 使用phpQuery轻松采集网页内容
  2. 关于H无穷鲁棒控制算法实现条件及广义矩阵P的子矩阵的构建规则
  3. 不同手机型号图文预览_手机型号的不同后缀都代表什么意思?看完买手机再也不入坑!...
  4. 国内6大网络信息采集和页面数据抓取工具
  5. cisco2911路由器破解密码
  6. 银行家算法C语言代码
  7. 有道词典pc离线包打包下载_【超福利】安卓手机上最好用的离线词典
  8. java 图片转pdf_在Java语言中将图像转换为PDF?Spire.PDF for Java轻松搞定!
  9. 基于51单片机WiFi温湿度远程控制
  10. java单例接口_JAVA单例模式