本文基于SQL和Python对某视频平台的热门视频进行分析研究,数据包含了十个国家在两年内的每日热门视频记录,包含视频id、日期、标题、观看量、点赞量、评论数等等共16个字段。从这些数据中分析挖掘,能够让我们更好地了解热门视频具备哪些共同特性,对比不同国家的热点差异,这些数据还可能揭示出一些很有启发意义的规律。

数据集的csv文件用Navicat导入Mysql,并从JSON文件中用python字典提取出类别id和类别的对应关系。数据包含以下字段:视频id、日期、标题、频道、类目、分布时间、标签、观看量、赞、踩、评论数、缩图链接、禁用评论、禁用率、失效视频、描述。下图给出了各国热门视频的总数,我们可以看到各国的数据量基本在3W-5W间,日本的热门视频总量较少,为2W+。对数据清洗的过程中,剔除了以日语、韩语等语言为主的字段,保留了英语和数字类型的字段信息。
各国不同类别的热门视频数量如下图所示,US, GB, DE, CA, FR, RU, MX, KR, JP, IN分别代表美、英、德、加、法、俄、墨西哥、韩、日、印。娱乐类视频在多数国家都是最受欢迎的。当然也有例外,例如英国最热门的类目是音乐,俄国最热门的类目则是人物&博客类。

选取了几个国家的观看次数分布情况做箱线图如下。从观看次数的分布看,加、法、德绝大多数热门视频的观看次数都在100w以下,英国多数视频观看量在400w以下。 英国和加拿大的箱线图较相似,箱线边缘左右均分布了许多离群值,德国、法国比较相近,异常值主要分布在箱线边缘右侧。观看量最高的那些视频播放量远远高出一般水平。

查询播放量占前5%的视频得知,其平均播放量达到400w-7kw之间,为橘色区域而最热的视频播放量超过了1亿甚至超过4亿,见蓝色区域。与之形成鲜明对比的是,法、德、加75%的视频播放量不超过100w,英75%的视频播放量不超过370w,75%视频中最高播放量用绿色区域表示,在图表少到几乎不可见的程度。

下图给出了各个国家不同类别视频的观看量分布情况。类别缩写含义如下:A&V-汽车、E-娱乐、Edu-教育、F&A-影视动漫、H&S-生活时尚、M-音乐、N&P-新闻时政、NP&A-非盈利公益、P&A-宠物动物、P&B-人物博客、S&T-科技、T&E-旅行纪实。不同国家存在明显的区别,也有一些共性,例如音乐类、影视类普遍受欢迎程度最高。

从点赞分布可以发现,电影类的点赞分布波动最小,这是因为热门里电影类视频数量很少,而且有一半国家(美国、日本、英国、韩国、墨西哥)电影类视频没有排进热门。热门视频中电影类较少的原因可能是一方面观众没有将该视频网站作为主要的观影渠道,另一方面与分类方式有关,比如Comedy、F&A和Movies在分类上有重叠之处,更多的电影视频可能在分类上并入了Comedy、F&A。
音乐类(M)点赞数普遍居高,音乐类视频在不同地区都是非常受欢迎的。但其点赞数的波动和长尾程度也很高,存在较多点赞量低的“异常值”。

下图选取CA数据展示了变量间的相关关系,其中相关程度用-1到1间的数值表示。我们看到观看量和点赞量高度正相关,对应值为0.83;喜欢与评论数之间相关性为0.84,同样很高,从图中还可以发现,不喜欢与评论数之间相关度为0.64,也处于很高的水平。

接下来看看热门视频与时间的关系,下图告诉我们周五的热门视频数量最多,周六最少。看来,周五发布视频很可能更容易成为热门,当然,也有可能是因为周五发布的视频总量最多。因为我们没有视频总量的数据,暂时无法判断。


一天中热门视频数量随时间的关系如图,16-17点为高峰时段,热门数量最多,而对于不同的国家而言,低峰期略有不同,GB的低峰期字6-7点,FR低峰期在2-3点,CA则在8-10点,DE在0点左右。但总体来看,不同国家0-10点的热门视频数量都在较低水平。

最后,简单总结一下本文的一些结论:
从热门视频总数看,娱乐类视频在多数国家都是最受欢迎的。就观看量而言,各国普遍来说音乐类、影视类有最高的观看量。
多个国家最热的视频播放量超过了1亿甚至超过4亿,而75%的视频播放量不超过370w。
喜欢与不喜欢之间,观看与不喜欢之间,观看与评论间均存在很高的正相关度。
从时间角度划分发现,周五的热门视频数量最多,周六最少。16-17点为热门视频数量的高峰时段,热门数量最多,0-10点的热门视频数量都在较低水平。

网站热门视频的特性分析相关推荐

  1. 某视频网站m3u8非感知加密分析

    某视频网站m3u8非感知加密分析 样本地址:aHR0cHM6Ly92LnFxLmNvbS94L2NvdmVyL216YzAwMjAwMXB2eHd6eS9pMDAzM2NncjF2bi5odG1s 打 ...

  2. 爱奇艺视频与腾讯视频竞品分析

    随着视频直播业的火爆,市场上视频直播的APP也层出不穷,这些APP主拼的内容和资源,更需进一步推动用户付费习惯的养成.从用户关注因素出发,以用户体验的多方面的校对市场上热门视频直播类APP进行对比分析 ...

  3. 爱奇艺、优酷、腾讯视频竞品分析报告2016(二)

    接上一篇<爱奇艺.优酷.腾讯视频竞品分析报告2016(一)> http://milkyqueen520.blog.51cto.com/11233158/1760192 2.4 产品设计与交 ...

  4. 2020前端最新面试题总结(js、html、小程序、React、ES6、Vue、算法、全栈热门视频资源)(3年前端菜鸟级开发师含泪总结)

    2020前端最新面试题总结(js.html.小程序.React.ES6.Vue.算法.全栈热门视频资源) 文档描述 (今年确实挺难 3年前端菜鸟级开发师含泪总结 希望能帮助大家) 本文是关注微信小程序 ...

  5. Python爬虫系列之抖音热门视频爬取

    Python爬虫系列之抖音热门视频爬取 主要使用requests库以及手机抓包工具去分析接口 该demo仅供参考,已经失效,需要抖音2019年5月最新所有接口请点击这里获取 抖音资源获取接口文档请点击 ...

  6. Cris 小哥哥的大数据项目之 Hive 统计 YouTube 热门视频

    Cris 小哥哥的大数据项目之 Hive 统计 YouTube 热门视频 Author:Cris 文章目录 Cris 小哥哥的大数据项目之 Hive 统计 YouTube 热门视频 Author:Cr ...

  7. python b站日排行榜_B站2020年每周必看热门视频数据盘点!Python数据分析

    1.数据抓取 数据集的获取是我们进行数据分析的第一步.现在获取数据的主要途径一般为:现成数据:自己写爬虫去爬取数据:使用现有的爬虫工具爬取所需内容,保存到数据库,或以文件的形式保存到本地. 博主用的是 ...

  8. B站2020年每周必看热门视频数据盘点!Python数据分析

    1.数据抓取 数据集的获取是我们进行数据分析的第一步.现在获取数据的主要途径一般为:现成数据:自己写爬虫去爬取数据:使用现有的爬虫工具爬取所需内容,保存到数据库,或以文件的形式保存到本地. 博主用的是 ...

  9. 爱奇艺、优酷、腾讯视频竞品分析报告2016(一)

    1 背景 1.1 行业背景 1.1.1 移动端网民规模过半,使用时长份额超PC端 2016年1月22日,中国互联网络信息中心 (CNNIC)发布第37次<中国互联网络发展状况统计报告>,报 ...

  10. B站2020年每周必看热门视频数据盘点(数据分析)1.数据抓取2.数据清洗3.数据分析及可视化

    1.数据抓取 数据集的获取是我们进行数据分析的第一步.现在获取数据的主要途径一般为:现成数据:自己写爬虫去爬取数据:使用现有的爬虫工具爬取所需内容,保存到数据库,或以文件的形式保存到本地. 博主用的是 ...

最新文章

  1. Git最新版从零开始详细教程(迅速搞定~)
  2. 辨别 Windows CE, Windows XP Embedded 和 Windows Mobile
  3. ffmpeg文件拼接
  4. PAT甲题题解-1070. Mooncake (25)-排序,大水题
  5. python机器学习之数据集(查看数据,划分训练集、测试集)
  6. 实用网站合集(持续更新ing)
  7. maven常用命令大全(附详细解释)
  8. 浅谈PHP语言的优势和劣势
  9. Scrapy框架爬取新闻!
  10. 学会有礼貌的拒绝应聘者
  11. Parameter 1 of constructor in com.xxx.controller.Xxx required a bean of type
  12. stack容器—C++笔记
  13. python 语料_用python从语料库中提取最常用的词
  14. springboot注解方式实现aop及常规方式
  15. NOI2020 瞎逛游记
  16. 医美企业如何玩转私域流量?
  17. java mock verify_java-缺少对verify(mock)的方法调用,但是有一个?
  18. 30种常用管理工具模型整理分享(上)
  19. AC日记——蓬莱山辉夜 codevs 2830
  20. rust腐蚀几人组队_腐蚀怎么邀请组队

热门文章

  1. 一小时复习完C++Primer!!!
  2. 当输入 xxxxHub 后,到网页显示,其间发生了什么?这问题被面试官问了五六十次,熬夜赶出这篇文章...
  3. 排序算法之 堆排序 及其时间复杂度和空间复杂度
  4. 短视频+在线教育有什么优势呢?
  5. 阿里、华为各大厂团宠,用了爽到飞起!
  6. npm、yarn、nrm 常用命令
  7. 微软公司按照成熟度把服务器端企业,公修课-战略性新兴产业基础知识考题(附答案).pdf...
  8. CSS实现单行、多行文本超出后隐藏并显示省略号
  9. 一年开发做过的错事,踩过的坑
  10. 为什么张扬的人别人很讨厌_为什么每个人都讨厌操作系统?