大数据解读 | B站2020跨年晚会如何看哭我们?
作者 | CDA数据分析师
2020 年的跨年之夜,你是怎么过的?有多少人是跟我一样,窝在家里看跨年晚会呢?而你看的又是哪一家卫视的——江苏的,湖南的,安徽的,还是北京的……估计像我一样看B站(哔哩哔哩网站)2020跨年晚会的朋友不是很多吧?但我想说的是,B站跨年晚会虽不敌各大卫视那么强大的明星阵容和收视份额,但它独有一份情怀却把我给看哭了,下面通过数据爬取,好好和大家捞一捞。
我搜集整理了 B 站晚会下面上万条评论,得到了这样一张词云图:
在前五的高频关键词里面,「小破站」异军突起。
小破站
这是大家对 B 站的爱称。
就像上学那会儿说的一句话:
「母校就是那个你一天骂他八遍却不许别人骂半句的地方。」
我们的「小破站」也是这个道理。
可偏偏就是这么一个小破站,给我们准备了这么精彩的一场跨年晚会。
我们是谁?
对了,我老说我们,我们,因为在分词的结果里,「我们的晚会」也是最常被提及的,你可能想问了,你们谁啊?我很难去概括说一定是 80后,90后,还是 00后,「我们」这个群体是一种感觉,怎么说呢?
当你听到《数码宝贝》的主题曲,你的暴龙兽有没有开始进化?
当你听到《名侦探柯南》的主题曲,你有没有推推眼镜,甩出胳膊,大喊一句真相只有一个?
当你听到胡彦斌唱起《我为歌狂》里的《我的舞台》,你有没有跟着一起哼唱我的舞台我自己创造要让全世界看到?
如果你也一样,那或许就对了。
我感觉到,全部都回来了
说到这里,我必须要吐槽一下薛之谦,你在江苏卫视的春晚对着提词器上的中文,用塑料日语唱《灌篮高手》主题曲的这个表演,我真的感动不起来。你又不是个演员,别设计那些情节,观众一眼能看见。
而反过来,你看看咱们小破站请来的周深,唱的《千与千寻》!
这一开口,我的娘唉,你细品。薛之谦,我跟你讲,下次不可以这样子。知道伐?你这是在毁我的童年。什么时候我们开始,收起了底线,顺应时代的改变,看那些拙劣的表演。
「感觉」「说」
还有一个 B 站晚会大火的原因,我从关键词里发现的,「说」「感觉」也是大家非常需要的,尤其是看晚会的时候。
看晚会是一回事儿,大家一起发弹幕才是更重要的。晚会配合弹幕一起服用,效果更佳。
大家有多想说呢?我把大家的评论里有关说的词连起来就是:
说实话,有一说一,我想说,不说别的,我敢说,怎么说呢,我只会说,不得不说,与其说不如说,还能说什么呢?我也没啥好说的了,啥也不说了,你说。
「哭」
啊,对了,你们看别的晚会的有没有哭啊?我也不知道你们看 B 站晚会的时候有没有忍不住眼眶湿润的,反正词云里面,哭也是个很有分量的关键词。反正我呢,写这个稿子的时候都躲在办公室的角落里抹了好几回眼泪。
内心被击中的点,好像就是我们一起看过的,玩过的,听过的共同回忆,这种感觉比什么都重要。
钢铁洪流进行曲
这里就要提到一首歌叫:《钢铁洪流进行曲》,它是这样的:
你看看别家卫视有钢铁洪流进行曲吗?
我瞎猜啊,别的卫视的导演在选明星的时候,就是咔咔咔大牌流量明星使劲儿往上怼,而 B 站的数据分析师一看结果说:老板,《钢铁洪流进行曲》可以上!
不说别的,光是在 B 站搜索《钢铁洪流进行曲》就可以看到成百上千个不同版本的演绎。
这就是大家一起的回忆,一起玩,一起闹,一起哭,一起笑。
言归正传,我们还是一档数据分析技术教育的脱口秀,今天我们就说说这个分词:
B 站分词之牛逼的多种写法
鲁迅先生让大家知道了茴香豆的茴有几种写法,
而咱们 B 站的各位也给大家演示了牛逼的多种写法。
在这里,我们应该将这些词都替换成同一种写法的「牛逼」,这样在统计的时候,你才能更加准确地看到咱们 B 站有多「牛逼」。
B站分词之不要随便停用
而第二点,就是停用词不要延续其他项目传统的方式,在做 B 站分词的时候,对于 B 站最优特色的表情符号,要充分保留,比如咱们的口号:
里面的括号在传统项目的停用词里面就有,所以要注意。
呼吁春晚上B站
最后,我在这里强烈呼吁一下,今年春晚能在 B 站直播。
我非常期待,让大家弹幕刷起来,我保证除夕夜连夜出一份数据报告,拍个视频。
尽管小破站也有拜年祭,弄的也是风生水起,但求求小破站救救春晚吧。
不能发弹幕的春晚,那能叫春晚?
本期技术总结
1. 网页数据抓取,搜集整理相关评论数据
2. 自然语言处理,对文本信息进行分词,统计词频生成词云
3. 多看 B 站
如果你对其他什么话题感兴趣,欢迎留言告诉我们。
我们下期见!
大数据时代,所有的职业人都在高薪奔跑,您还在等什么?可前往:https://www.cda.cn/?jianshu
也可进入CDA小程序,解锁更多优质内容和新鲜资讯,还有免费试听课程,千万不能错过哟!
大数据解读 | B站2020跨年晚会如何看哭我们?相关推荐
- 大数据解读B站火过蔡徐坤的“鬼畜“区巨头们
本文转自公众号『数据森麟』,详情请扫码关注该公众号: 作者:徐麟,某互联网公司数据分析狮,个人公众号数据森麟(id:shujusenlin) 前言 近日,蔡徐坤一纸律师函发往B站,律师函内容显示,&q ...
- 世界卫生日:大数据解读抑郁症群体
4月7日是.今年世界卫生日关注的是抑郁症. 大数据解读抑郁症群体 据世界卫生组织统计数据显示,到2020年,抑郁症将成为仅次于心脏病的第二大疾病.目前全球有3亿多人正遭受抑郁症困扰.中国抑郁症的患病率 ...
- B站2020跨年晚会,被弹幕刷屏的节目是哪个,发弹幕最多的人又是谁?
作者 | CDA数据分析师 本以为薛之谦粉丝会觉得不妥给C君留言指正,没想到却是被数据分析爱好者从内容上提出了严厉的批评. 垃圾标题党...我以为收集的数据是与春晚观看人数,成本之类的对比,结果搞了个 ...
- 商铺选址“风水”是门学问 大数据解读一步差三市主因
商铺选址"风水"是门学问 大数据解读一步差三市主因 在互联网.大数据.人工智能高速发展和被应用的今天,我们的生活时刻被这些先进的技术影响着,可以说只要有互联网行为,就有大数据和人工 ...
- 【云周刊】第125期:高考恢复40年!你们要的大数据解读来啦
摘要: 恢复高考这40年发生了哪些变迁?看看大数据的解读吧:Kotlin成为 Android开发一级语言后,真的会取代JAVA吗:大牛又是如何复盘递归神经网络的呢--更多精彩技术资讯,下滑查看吧! 本 ...
- 你看一场电影 大数据解读了这些秘密
文章讲的是你看一场电影 大数据解读了这些"秘密",电影票在线销售已超过了线下的影院销售,对应的,越来越多的用户数据也被收集分析.结果是,你买了一张电影票,跟着就会知道你看完电影可能 ...
- 智领云荣登“中国大数据企业50强” | 2020大数据产业生态大会盛大召开 智领云斩获多项殊荣
近年来,我国大数据生态环境不断向好,产业发展维持高增长态势,大数据技术在与政府.企业核心业务的融合中,释放出了更多创新活力和应用潜能. 8月27日,2020(第五届)大数据产业生态大会在京隆重召开,中 ...
- 致青春VS杜蕾斯,用QQ空间电影大数据解读关联性
按照<黑天鹅>的理论,下一部我们想看什么电影,甚至什么是好电影,都没有人知道.<爆发>却说,人类行为93%是可以预测的,预见未来依靠的就是"大数据",这与Q ...
- 平均月薪超过1万的北京人是这样上班的|大数据解读(视频)
最新数据显示,全国37个主要城市的平均招聘薪酬为7789元,北京的平均薪酬水平排名第一并且已经过万.但是在高薪酬的背后,每一个在大城市打拼的人都承受着焦虑和压力.其中,通勤是城市上班族每天都必须面临的 ...
最新文章
- 各国自动驾驶政策概况及特征
- HDU 5289 Assignment(单调队列)
- vw实现移动端自适应页面
- 浏览器兼容console对象的简要解决方案
- 统一沟通_边缘安装及配置之十七_(Windows Server 2008 R2 SP1英文版)
- javascript中的cookie
- MediaCodec解析MP4视频
- 计算机专业搜题软件免费,QuestionHelper(pc搜题工具)
- Hyperledger Fabric CA中文文档
- windows安全事件id汇总
- python list 交集并集差集补集
- 你好!Docker【概念+源码+保姆式教程】
- arm linux 俄罗斯方块,基于ARM的俄罗斯方块游戏的开发教材.doc
- 【转载】面试题:面向对象的特征和基本特征有哪些 之抽象
- 35个Python实战项目,完整源代码!
- 新中新 金龙一卡通 TPE_StartTPE 加载授权文件失败 JAVA
- sqli-labs踩坑
- 夏日葵电商:为你揭秘微信商城系统搭建的六大详细步骤
- 递归算法棋子移动java,java五子棋实习报告
- 1.1 海思3518E视频编解码的一些概念