数据森麟

一个让数据变得好玩的公众号

作者:徐麟,某互联网公司数据分析狮,个人公众号数据森麟(id:shujusenlin)

前言

很多人提到B站,首先想到的就会是二次元或者鬼畜,上个月,我们公众号也发表了一篇关于B站鬼畜视频的文章:

然而,实际上B站其实是个非常神奇的网站,里面的内容可谓是包罗万象,有趣的弹幕文化也能极大地提高大家的体验,B站也逐渐地成为了一个用来学习的“神器”。

近期B站获得了央视网的力挺,报道称B站已经成为了越来越多的年轻人的学习阵地,正所谓“我在B站看番,你却在B站学习” ,今天我们就来爬取B站上那些播放量、弹幕量排名靠前的编程类视频,一起去了解B站的另一面。

数据来源

我们此次的数据主要来源于B站搜索框中输入“编程”后的视频列表及相关信息:

B站一共提供了物种视频排序的方式,每种能够返回前1000个视频,我们分别爬取五种排序所得到的1000个视频之后对5000个视频进行排序,最终得到了2000多个编程类视频的信息

同时我们也增加了一些筛选条件,使得最终获取到的编程教学视频更具代表性:a.所属分类为科技类 b.视频时长大于60分钟,部分代码如下:

## 获得列表
def get_list(i,j):attempts = 0success = Falsewhile attempts < 5 and not success:try:url = 'https://search.bilibili.com/all?keyword=%E7%BC%96%E7%A8%8B&from_source=banner_search&order={}&duration=4&tids_1=36&page={}'.format(i,j+1)header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win32; x32; rv:54.0) Gecko/20100101 Firefox/54.0','Connection': 'keep-alive'}cookies ='v=3; iuuid=1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; webp=true; ci=1%2C%E5%8C%97%E4%BA%AC; __guid=26581345.3954606544145667000.1530879049181.8303; _lxsdk_cuid=1646f808301c8-0a4e19f5421593-5d4e211f-100200-1646f808302c8; _lxsdk=1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; monitor_count=1; _lxsdk_s=16472ee89ec-de2-f91-ed0%7C%7C5; __mta=189118996.1530879050545.1530936763555.1530937843742.18'cookie = {}for line in cookies.split(';'):name, value = cookies.strip().split('=', 1)cookie[name] = valuehtml = requests.get(url,cookies=cookie, headers=header).contentbsObj = BeautifulSoup(html.decode('utf-8'),"html.parser")script = bsObj.find_all('script')[3].textinfo = json.loads(script.replace('window.__INITIAL_STATE__=','').split(';(function()')[0])['allData']['video']return infoexcept:attempts = attempts+1return []coding_all = []
type = ['click','stow','dm']
for i in type:for j in range(50):this_coding = get_list(i,j)coding_all = coding_all+this_coding

最终,我们获取到了如下的视频信息列表:

数据分析

获取到数据之后,我们首先关注的是这些视频的主要内容,通过视频给出的标签,绘制整体内容总结的词云图:

可以看到,上面的词云除了编程语言,技术之外包含了许多类似于学习,教程这样的通用描述性词汇,我们需要进一步从中筛选出与编程语言、技术相关的词云,提高词云图的效果:

可以看到,经过筛选后的词云图效果要好很多,其中基本上囊括了现在比较火的编程语言,如Java、Python 以及数据结构、机器学习这些技术类的内容,下面我们来看一下各编程语言的播放量及弹幕量对比:

我们此次将linux也划分到语言类中,可以看到目前基本上就是处于Python、C语言、Java三组鼎力的态势,Python略微领先于其他两种语言,这也一定程度反映了当今的整体发展趋势。由此可见,B站的内容也是与时俱进,适合年轻人去学习了解编程整体发展趋势。

看完了语言类,我们再来看一下具体的技术类排行榜:

可以看到,前端、人工智能、数据框、爬虫这些大家比较关心以及公司有较大需求量的技术都出现在了榜单中,在B站如果能将自己所要从事领域的视频认真学习,也会有很大的提高,部分代码如下:

## 分组统计
coding_tag = dataframe_explode(coding,'tag')
coding_tag['tag'] = coding_tag['tag'].apply(str.lower)
coding_tag['type'] = coding_tag['tag'].map({tag_dict['tag'][k]:tag_dict['type'][k] for k in range(tag_dict.shape[0])})
coding_tag = coding_tag.groupby(['title','pic','author','arcurl','tag','type'],as_index=False).agg({'play':'max','danmu':'max','favorites':'max','review':'max'})
tag_count = coding_tag.groupby(['tag','type'],as_index=False).agg({'title':['count'],'play':['sum'],'danmu':['sum'],'favorites':['sum']})
tag_count.columns = ['tag','type','num','play','danmu','favorites']
## 绘制图片
coding_stat = tag_count[tag_count['type']=='语言']
coding_stat.sort_values('play',ascending=False,inplace=True)
attr = coding_stat['tag'][0:10]
v1 = coding_stat['play'][0:10]
bar = Bar("语言类播放量TOP10")
bar.add("播放数量", attr, v1, is_stack=True, xaxis_rotate=30,xaxis_label_textsize=18,xaxis_interval =0,is_splitline_show=False,label_text_size=12,is_label_show=True)
bar.render('语言类播放量TOP10.html')

精品视频

分析完整体视频内容的分布情况,我们再来看下那些最为精品的视频,由于B站以弹幕文化为特色,我们就依据弹幕量来为大家精选出一些非常不错的视频,首先是所有编程类视频的TOP20:

我们下面分别看一下三足鼎立中的Python、Java、C语言分别弹幕量排名前十的视频信息:

写在最后

B站的阿婆主为为大家提供了特别多的编程学习资源,大家在学习知识的同时,也需要注意的就是相应的版权信息。上传视频一定要确认版权不存在问题之后再去上传,另外如果发现有存在侵权的问题,也要及时跟视频作者进行反馈,及时将侵权视频下架。

另外,希望大家能够多多支持技术类的视频和阿婆主,如果觉得不错就不要吝惜手中的硬币,让更多的技术类阿婆主有动力为大家提供更多更好的视频内容

后台回复“编程”可以获取本文代码。

B 站上最热门的 Python 课程相关推荐

  1. python实现链表的删除_B站上的免费Python课程

    本文目录前言 B站探索[小甲鱼]零基础入门学习Python黑马程序员-600集Python从入门到精通教程千锋python全套视频教程Python 数据分析与展示(北京理工大学 )Python网络爬虫 ...

  2. python课程费用-深圳python课程费用

    深圳python课程费用 来源:教育联展网 编辑:粉色de皮卡丘 发布时间:2019-09-30 人工智能Python培训 到北大青鸟学Python 技能提升高薪就业 快速咨询 学习Python有哪些 ...

  3. python课程价格哪个好-python课程价格

    python课程价格根据所报读的班级不同,价格从一万到两万四不等,详情请咨询客服.随着近年Python的持续走热,越来越多的公司开始使用Python编程语言.具体情况大家可以看一下各个招聘平台的具体数 ...

  4. 开课吧python课程-开课吧Python课程亮相胡海泉抖音直播间

    7月15日19时,著名歌手胡海泉进行了个人直播带货首秀,数字化人才在线教育平台开课吧携旗下最火爆的Python课程亮相其抖音直播间.据最新消息称,开课吧累计付费学员人数已超过400万,课程直播带货销量 ...

  5. 开课吧python好吗-开课吧9.9元学Python课程适合哪些人?开课吧靠谱吗?

    哪些人适合学Python? 上班族:可以用Python,提高效率.早下班 学生党:可以用Python,积攒经验.赚外快 毕业生:可以用Python,爬资料写论文.找工作 互联网人:可以用Python, ...

  6. python项目-2019年5月GitHub上热门的Python项目

    5月份GitHub上最热门的Python项目出炉了,下面我们一起盘点一下: 1. Python Star 44125 该项目用Python实现了所有的排序算法,包括插入排序.冒泡排序.快速排序.选择排 ...

  7. 开课吧python课程-明星为开课吧直播带货:人人都要学,人人都可以学的Python

    自7月4日首个定制音乐漫综<Hi,泉听我的!>在抖音LiveShow霸榜后,胡海泉乘胜追击,7月15日19时将在抖音启动他的直播带货首秀,抖音搜索"海泉"即可在线围观. ...

  8. python课程价格-python课程价格

    python课程价格根据所报读的班级不同,价格从一万到两万四不等,详情请咨询客服.随着近年Python的持续走热,越来越多的公司开始使用Python编程语言.具体情况大家可以看一下各个招聘平台的具体数 ...

  9. 开课吧学python靠谱吗-开课吧9.9元学Python课程适合哪些人?开课吧靠谱吗?

    哪些人适合学Python? 上班族:可以用Python,提高效率.早下班 学生党:可以用Python,积攒经验.赚外快 毕业生:可以用Python,爬资料写论文.找工作 互联网人:可以用Python, ...

最新文章

  1. spss预测变量重要性不可用_C4.5/5.0的SPSS操作
  2. LINUX下UDP实现消息镜像通信,linux环境下基于udp socket简单聊天通信
  3. Luogu4606 SDOI2018 战略游戏 圆方树、虚树、链并
  4. Spring笔记——2.使用Spring容器
  5. 自动开料机器人_工业4.0智能家具无人化生产线 自动化无人化大势所趋
  6. PAT甲级 -- 1041 Be Unique (20 分)
  7. GIS开源库shapeLib的使用方法
  8. php curl如何解决分页,一段PHP的分页程序,报错,该如何解决
  9. linux 系统 cp: omitting directory 问题解决
  10. 啊金学习javascript系列一之javascript整体印象
  11. matlab qpsk调制程序,MATLAB QPSK调制及解调.doc
  12. Android 12中系统Wallpaper详解1--锁屏透看壁纸和桌面透看壁纸的切换
  13. Cross Apply 与 Outer Apply 的区别
  14. rockchip 瑞芯微 SDK 一些解释
  15. JAVA编写程序实现,由键盘输入两个整数,输出其中较大的数。
  16. Python学习日志--摆动吧!钟摆!
  17. 编译原理(四) 消除回溯提取左因子法
  18. troubleshooting之解决YARN队列资源不足导致的application直接失败
  19. STM32之ADC的学习心得(std+HAL)
  20. 老司机带你快速实现Python下载与安装

热门文章

  1. 二十一Redis集群
  2. 计算机网络常用知识总结。
  3. bongo cat mver怎么缩小?bongo cat mver调整大小
  4. 带宽翻倍 信号出众,飞鱼星F1携黑科技震撼上市
  5. LOL设计模式之「策略模式」 1
  6. GoDaddy SSL证书Private key问题
  7. cad怎么卸载干净_怎么卸载干净office?附卸载工具+教程方法
  8. 推荐篇:原来阿里也对excel情有独钟
  9. 计算机定时关机教程,msoffice系统工具教程怎么设置电脑定时关机
  10. NC6通过java方式添加自定义按钮