最近一年来B站真的是火热火热的。

最近的跨年晚会,得到了人民日报的表扬。

去年4月份被央视点名表扬。

弄的小F也注册了一个B站账号,去学习~

那么问题来了,面对B站8千万的视频,该如何找到那些优质的资源呢?

小F爬取了B站科技分区下三个板块2019年的所有视频,约110w。

其中演讲·公开课板块视频最多,占了一半的数量。

数据是放在Mysql数据库,所以放一下数据处理的代码。

import pandas as pd
import pymysql# 设置列名与数据对齐
pd.set_option('display.unicode.ambiguous_as_wide', True)
pd.set_option('display.unicode.east_asian_width', True)
# 显示20列
pd.set_option('display.max_columns', 20)
# 显示10行
pd.set_option('display.max_rows', 10)
# 设置显示宽度为2000,这样就不会在IDE中换行了
pd.set_option('display.width', 2000)# 读取数据
conn = pymysql.connect(host='localhost', user='root', password='20200118', port=3306, db='bilibili', charset='utf8mb4')
cursor = conn.cursor()
sql = "select * from messages"
db = pd.read_sql(sql, conn)

选取上传时间为2019年的视频,看一下整体的数据情况。

# 选取2019年的视频数据
df = db[db['day'].str.contains("2019")]
# 选取观看数、弹幕数、点赞数、投币数、收藏数、分享数、回复数的列数据
df = df[['view', 'danmaku', 'love', 'coin', 'favorite', 'share', 'reply']]# 计算每列的总和
df.loc['Row_sum'] = df.apply(lambda x: x.sum())
# 打印结果
print(df)

结果如下。

可以看到2019年上传了1086739个视频。

共产生了41亿次的观看,2千万的弹幕,1.3亿的点赞,近7千万的投币,1.1亿的收藏,1.5千万的分享,以及1.8千万的评论。

厉害了,这个硬核的「B站」。

下面分别看一下各个数据的Top10。

# 对播放量进行排序,其它就是修改view为danmaku,love,coin,favorite,share,reply
df = df.sort_values('view', ascending=False, na_position='last')
# 输出排行前10位
df = df[['aid', 'view', 'name', 'title']].head(10)
print(df)

话说逛过B站的你,看过下面中的哪几个视频呢?

才入坑的小F,也就看过那么几个吧...

「何同学」算是知道的,那个讲解5G的视频。

还有「见齐」,他开源的可视化工具(动态条形图)真的香。

没玩过B站的,可以输入图片中的「mid」值(av号)即可访问视频。

https://www.bilibili.com/video/av52012946(复制到浏览器打开)

目前B站的注册人数已经超过4亿人,月活跃用户也超过1亿人。

下面就来看一下这110w的视频是由多少个UP主上传的,那些UP主上传视频最多。

# 对UP主进行分类汇总,计算上传视频数量
df = df.groupby(['name'])[['mid']].count().reset_index()
# 输出所有结果
# df = df.sort_values('mid', ascending=False, na_position='last')# 输出排行前10位
df = df.sort_values('mid', ascending=False, na_position='last').head(10)
print(df)

结果如下。

可以看到共有11万+的UP主参与了这个大工程的建设。

以下10位作者可以说是B站科技板块最勤奋的UP主了。

「knnstack」这位UP主贡献了近2万的视频,貌似都是搬运的。

那么2019年谁是B站最强UP主呢?

下面以2019年视频总播放量作为一个参考,看一下Top10。

其中「我是EyeOpener」以5千万的播放量位居第一,其他各项数据也位居前列。

就主页来看,应该是一位偏向科普类型的UP主。

通过这些数据应该就能将B站科技板块热门的UP主搜罗的差不多了。

对于那些冷门但质量好的UP主,或许就只能慢慢发现了。

接下来查询一下关于Python的视频有多少呢?

# 查询标题含有Python的视频
df = df[df['title'].str.contains("python|Python")]
# 输出结果
print(df)

结果如下。

1万多条,也是不少,不过其中的版权问题也较大。

之前看过网易数读的一篇文章,里面提到了北京大学的课程最受欢迎。

这里小F就来验证一下。

# 查询标题含有北京大学的视频
df = df[df['title'].str.contains("北京大学")]
# 查询标题含有清华大学的视频
# df = df[df['title'].str.contains("清华大学")]
# 选取av号,类型,播放量数据的列
df = df[['aid', 'tname', 'view']]
# 输出结果
print(df)

结果如下。

其中2019年清华大学相关课程的播放量已经达到1千万+,而北京大学则是3千万+。

不愧是一个超硬核的「学习网站」。

小F最近想了解视频剪辑,一查就有优质资源(以播放量排序)。

最后来看一下B站视频上传时间及视频时长分布。

总体上全年成上升趋势。

8月份最高,看来暑假的时候大家学习的欲望很强啊!

对于科普的视频,时长一般都短点,这样能够快速了解。

对于需要深入学习的,时长应该就长了,所以可以看到大于30分钟的视频数量最多。

好了不说了,我要去知乎写帖子去了...

用数据来告诉大伙,有哪些值得推荐的学习UP主。

万水千山总是情,点个「在看」行不行。

推荐阅读

···  END  ···

支持小F原创  

分析B站100万+视频,发现竟然有这么多干货资源。相关推荐

  1. 分析B站10万条弹幕后,发现了歪嘴战神的终极奥义!

    作者 | 数据不吹牛 最近,歪嘴战神血洗b站,靠着"耐克式微笑"成功出圈,迷倒众生. 这次,小z爬取了10万条相关弹幕,从数据分析的角度,扒一扒歪嘴战神那该死的狷狂魅力. 歪嘴战神 ...

  2. 抗击肺炎,我们能做到的,就是别让爱隔离——python分析B站三个视频弹幕内容,云图数据。

    武汉是个美丽的城市,但这个城市现在生病了. "人之初,性本善" 美丽的武汉生病了,一场大病,有钱的人能捐钱,而我,一直陪着你们吧,武汉加油 ! 有人说"武汉人咋啥也吃&q ...

  3. Python爬虫分析——B站UP主视频数据分析

    背景 一个朋友的要求,对B站UP主的视频进行分析.至于要做什么,你懂的. 核心 使用B站提供的API,爬取数据,进行分析.具体B站提供的API就不说了,https://www.bilibili.com ...

  4. java存款只能存100_有100万存款,怎么样存银行才是最佳方法呢?

    100万全部存一家银行肯定是没这么安全的,真正想做到绝对的安全还是建议你分两家银行存,这样才是真正的安全,下面进行详细分析. (1)100万从存款安全角度考虑 相信储户们都知道银行每年都是必须要购买存 ...

  5. 判断当前是xorg还是xwayland_有100万存款,每年要多少利息才不算贬值?怎么判断贬值或升值?...

    有100万存款,一年利息收入要大于或者等于通货膨胀率,只有这样才能算不贬值. 货币的升值与贬值都是相对的,判断货币的升值或者是贬值的参考物就是通货膨胀率,国内一般都是以CPI涨幅为准,CPI的涨幅最能 ...

  6. 央视最美记者王冰冰火爆B站,单个视频1800万播放,都说了啥?

    公众号关注 "菜鸟学Python" 第434篇原创,设为 "星标",一起学编程! 提起央视最近最火的女记者,想必很多的小伙伴都会第一时间想到王冰冰,她凭借着自己 ...

  7. 500个爆文标题_我研究了999篇100万+爆文,终于发现这10条标题规律!

    易撰 文章想要"爆",标题一定要妙! 标题是文章的眉目,是文章内容和读者情感之间的第一个接触点,是让人一见钟情的因子. 一个好的题目,能激起读者点击阅读的兴趣,有着眉目传神之妙用. ...

  8. 分析了100万个搜索结果,验证了16个SEO优化的核心影响因素

    尽管这篇文章分析的是谷歌,但是很多对于其他搜索引擎也同样受用,不得不说的是在搜索技术上百度与谷歌的距离还是很远,可能方向都放到赚钱去了吧,OK,让我们开始吧! 我们分析了100万个搜索结果(SERP) ...

  9. 博后年薪58万起,副教授35万起,出站享80万安家费或100万房补,西电杭州研究院...

    来源 | 博士后招聘平台 编辑 | 硕博就业圈 研究院简介 XDU HANGZHOU 西安电子科技大学杭州研究院是西安电子科技大学为深入贯彻落实党中央.国务院关于深化产教融合改革部署和教育部.国家发展 ...

最新文章

  1. 软件工程 speedsnail 冲刺3
  2. Python3 图片(jpg、bmp、png)转PDF
  3. PAT1097:Deduplication on a Linked List
  4. ITK:计算网格上的测地距离
  5. 配置审计(Config)配合开启OSS防盗链功能
  6. Java实现两个递增有序链表合并成一个递增有序链表和两个非递减有序链表合成一个非递增有序链表
  7. Android 自定义View实现QQ运动积分抽奖转盘
  8. html上传文件_.NET基于WebUploader大文件分片上传、断网续传、秒传
  9. android布局添加背景颜色,android-获取布局的背景色
  10. Ubuntu 安装 Redis
  11. 2018为什么你一定要学Python
  12. python 异常处理高级形式例子_Python 异常处理的实例详解
  13. Linux 面试常考题总结大全【建议收藏】
  14. 计算机硬盘接口及操作系统
  15. 2020年电工(技师)证考试及电工(技师)模拟考试软件
  16. 故障:PDF 文件打印失败
  17. foobox 2.11(foobar2000 CUI配置)
  18. 一个浏览器播放5个或者6个flv的视频就不能播放了
  19. 2016届腾讯实习生招聘上海站回忆版
  20. Jpa配置实体类创建时间更新时间自动赋值,@CreateDate,@LastModifiedDate

热门文章

  1. UE4初学笔记:孙悟空场景人物搭建
  2. python用ARIMA模型预测CO2浓度时间序列实现
  3. C++ 银行家算法与时间片轮转调度算法结合
  4. 设计一个时间片轮转法调度的算法
  5. eclipse代码中文乱码解决方法
  6. SAP模块介绍及概念介绍
  7. 常见水表类型有哪些?
  8. 微型计算机杂志主要内容,中国IT杂志生存态势分析
  9. windows7声卡驱动安装方法
  10. JSONPath 解析 JSON 内容详解(自 github)