作者 | CDA数据分析师

2020 年的跨年之夜,你是怎么过的?有多少人是跟我一样,窝在家里看跨年晚会呢?而你看的又是哪一家卫视的——江苏的,湖南的,安徽的,还是北京的……估计像我一样看B站(哔哩哔哩网站)2020跨年晚会的朋友不是很多吧?但我想说的是,B站跨年晚会虽不敌各大卫视那么强大的明星阵容和收视份额,但它独有一份情怀却把我给看哭了,下面通过数据爬取,好好和大家捞一捞。

我搜集整理了 B 站晚会下面上万条评论,得到了这样一张词云图:

在前五的高频关键词里面,「小破站」异军突起。

小破站

这是大家对 B 站的爱称。

就像上学那会儿说的一句话:

「母校就是那个你一天骂他八遍却不许别人骂半句的地方。」

我们的「小破站」也是这个道理。

可偏偏就是这么一个小破站,给我们准备了这么精彩的一场跨年晚会。

我们是谁?

对了,我老说我们,我们,因为在分词的结果里,「我们的晚会」也是最常被提及的,你可能想问了,你们谁啊?我很难去概括说一定是 80后,90后,还是 00后,「我们」这个群体是一种感觉,怎么说呢?

当你听到《数码宝贝》的主题曲,你的暴龙兽有没有开始进化?

当你听到《名侦探柯南》的主题曲,你有没有推推眼镜,甩出胳膊,大喊一句真相只有一个?

当你听到胡彦斌唱起《我为歌狂》里的《我的舞台》,你有没有跟着一起哼唱我的舞台我自己创造要让全世界看到?

如果你也一样,那或许就对了。

我感觉到,全部都回来了

说到这里,我必须要吐槽一下薛之谦,你在江苏卫视的春晚对着提词器上的中文,用塑料日语唱《灌篮高手》主题曲的这个表演,我真的感动不起来。你又不是个演员,别设计那些情节,观众一眼能看见。

而反过来,你看看咱们小破站请来的周深,唱的《千与千寻》!

这一开口,我的娘唉,你细品。薛之谦,我跟你讲,下次不可以这样子。知道伐?你这是在毁我的童年。什么时候我们开始,收起了底线,顺应时代的改变,看那些拙劣的表演。

「感觉」「说」

还有一个 B 站晚会大火的原因,我从关键词里发现的,「说」「感觉」也是大家非常需要的,尤其是看晚会的时候。

看晚会是一回事儿,大家一起发弹幕才是更重要的。晚会配合弹幕一起服用,效果更佳。

大家有多想说呢?我把大家的评论里有关说的词连起来就是:

说实话,有一说一,我想说,不说别的,我敢说,怎么说呢,我只会说,不得不说,与其说不如说,还能说什么呢?我也没啥好说的了,啥也不说了,你说。

「哭」

啊,对了,你们看别的晚会的有没有哭啊?我也不知道你们看 B 站晚会的时候有没有忍不住眼眶湿润的,反正词云里面,哭也是个很有分量的关键词。反正我呢,写这个稿子的时候都躲在办公室的角落里抹了好几回眼泪。

内心被击中的点,好像就是我们一起看过的,玩过的,听过的共同回忆,这种感觉比什么都重要。

钢铁洪流进行曲

这里就要提到一首歌叫:《钢铁洪流进行曲》,它是这样的:

你看看别家卫视有钢铁洪流进行曲吗?

我瞎猜啊,别的卫视的导演在选明星的时候,就是咔咔咔大牌流量明星使劲儿往上怼,而 B 站的数据分析师一看结果说:老板,《钢铁洪流进行曲》可以上!

不说别的,光是在 B 站搜索《钢铁洪流进行曲》就可以看到成百上千个不同版本的演绎。

这就是大家一起的回忆,一起玩,一起闹,一起哭,一起笑。

言归正传,我们还是一档数据分析技术教育的脱口秀,今天我们就说说这个分词:

B 站分词之牛逼的多种写法

鲁迅先生让大家知道了茴香豆的茴有几种写法,

而咱们 B 站的各位也给大家演示了牛逼的多种写法。

在这里,我们应该将这些词都替换成同一种写法的「牛逼」,这样在统计的时候,你才能更加准确地看到咱们 B 站有多「牛逼」。

B站分词之不要随便停用

而第二点,就是停用词不要延续其他项目传统的方式,在做 B 站分词的时候,对于 B 站最优特色的表情符号,要充分保留,比如咱们的口号:

里面的括号在传统项目的停用词里面就有,所以要注意。

呼吁春晚上B站

最后,我在这里强烈呼吁一下,今年春晚能在 B 站直播。

我非常期待,让大家弹幕刷起来,我保证除夕夜连夜出一份数据报告,拍个视频。

尽管小破站也有拜年祭,弄的也是风生水起,但求求小破站救救春晚吧。

不能发弹幕的春晚,那能叫春晚?

本期技术总结

1. 网页数据抓取,搜集整理相关评论数据

2. 自然语言处理,对文本信息进行分词,统计词频生成词云

3. 多看 B 站

如果你对其他什么话题感兴趣,欢迎留言告诉我们。

我们下期见!

大数据时代,所有的职业人都在高薪奔跑,您还在等什么?可前往:https://www.cda.cn/?jianshu

也可进入CDA小程序,解锁更多优质内容和新鲜资讯,还有免费试听课程,千万不能错过哟!

大数据解读 | B站2020跨年晚会如何看哭我们?相关推荐

  1. 大数据解读B站火过蔡徐坤的“鬼畜“区巨头们

    本文转自公众号『数据森麟』,详情请扫码关注该公众号: 作者:徐麟,某互联网公司数据分析狮,个人公众号数据森麟(id:shujusenlin) 前言 近日,蔡徐坤一纸律师函发往B站,律师函内容显示,&q ...

  2. 世界卫生日:大数据解读抑郁症群体

    4月7日是.今年世界卫生日关注的是抑郁症. 大数据解读抑郁症群体 据世界卫生组织统计数据显示,到2020年,抑郁症将成为仅次于心脏病的第二大疾病.目前全球有3亿多人正遭受抑郁症困扰.中国抑郁症的患病率 ...

  3. B站2020跨年晚会,被弹幕刷屏的节目是哪个,发弹幕最多的人又是谁?

    作者 | CDA数据分析师 本以为薛之谦粉丝会觉得不妥给C君留言指正,没想到却是被数据分析爱好者从内容上提出了严厉的批评. 垃圾标题党...我以为收集的数据是与春晚观看人数,成本之类的对比,结果搞了个 ...

  4. 商铺选址“风水”是门学问 大数据解读一步差三市主因

    商铺选址"风水"是门学问 大数据解读一步差三市主因 在互联网.大数据.人工智能高速发展和被应用的今天,我们的生活时刻被这些先进的技术影响着,可以说只要有互联网行为,就有大数据和人工 ...

  5. 【云周刊】第125期:高考恢复40年!你们要的大数据解读来啦

    摘要: 恢复高考这40年发生了哪些变迁?看看大数据的解读吧:Kotlin成为 Android开发一级语言后,真的会取代JAVA吗:大牛又是如何复盘递归神经网络的呢--更多精彩技术资讯,下滑查看吧! 本 ...

  6. 你看一场电影 大数据解读了这些秘密

    文章讲的是你看一场电影 大数据解读了这些"秘密",电影票在线销售已超过了线下的影院销售,对应的,越来越多的用户数据也被收集分析.结果是,你买了一张电影票,跟着就会知道你看完电影可能 ...

  7. 智领云荣登“中国大数据企业50强” | 2020大数据产业生态大会盛大召开 智领云斩获多项殊荣

    近年来,我国大数据生态环境不断向好,产业发展维持高增长态势,大数据技术在与政府.企业核心业务的融合中,释放出了更多创新活力和应用潜能. 8月27日,2020(第五届)大数据产业生态大会在京隆重召开,中 ...

  8. 致青春VS杜蕾斯,用QQ空间电影大数据解读关联性

    按照<黑天鹅>的理论,下一部我们想看什么电影,甚至什么是好电影,都没有人知道.<爆发>却说,人类行为93%是可以预测的,预见未来依靠的就是"大数据",这与Q ...

  9. 平均月薪超过1万的北京人是这样上班的|大数据解读(视频)

    最新数据显示,全国37个主要城市的平均招聘薪酬为7789元,北京的平均薪酬水平排名第一并且已经过万.但是在高薪酬的背后,每一个在大城市打拼的人都承受着焦虑和压力.其中,通勤是城市上班族每天都必须面临的 ...

最新文章

  1. 各国自动驾驶政策概况及特征
  2. HDU 5289 Assignment(单调队列)
  3. vw实现移动端自适应页面
  4. 浏览器兼容console对象的简要解决方案
  5. 统一沟通_边缘安装及配置之十七_(Windows Server 2008 R2 SP1英文版)
  6. javascript中的cookie
  7. MediaCodec解析MP4视频
  8. 计算机专业搜题软件免费,QuestionHelper(pc搜题工具)
  9. Hyperledger Fabric CA中文文档
  10. windows安全事件id汇总
  11. python list 交集并集差集补集
  12. 你好!Docker【概念+源码+保姆式教程】
  13. arm linux 俄罗斯方块,基于ARM的俄罗斯方块游戏的开发教材.doc
  14. 【转载】面试题:面向对象的特征和基本特征有哪些 之抽象
  15. 35个Python实战项目,完整源代码!
  16. 新中新 金龙一卡通 TPE_StartTPE 加载授权文件失败 JAVA
  17. sqli-labs踩坑
  18. 夏日葵电商:为你揭秘微信商城系统搭建的六大详细步骤
  19. 递归算法棋子移动java,java五子棋实习报告
  20. 1.1 海思3518E视频编解码的一些概念

热门文章

  1. 时长一年半的前端练习生2022年终总结
  2. 2006-2020年280个地级市人力资本水平的测算(含具体过程和结果)
  3. 网易患病员工被保安赶出公司,程序员该如何应对中年危机?
  4. webform 本地化资源实现中英双语系统
  5. Linux下设备树dts内容(详细)总结及示例解析
  6. js 关于下载文件如何判断是否下载成功
  7. 计算机系统结构实践教程(第二版)张晨曦
  8. 当支付有了“智慧” 未来我们将体验到什么样的智慧城市?
  9. 任务车间调度问题的混合整数规划模型
  10. 数据库视图数据是否可以直接删除