页面如下

通过网络流分析,找到了我们需要找的文件

而通过下图能够得到对应的json格式的页面

然后就可以进行爬取了


import requests
import json
import time
import csvdef parse_url(html):try:#加载json字符串reply_data = json.loads(html)except:print("error")commentlist = []hlist = []hlist.append("序号")hlist.append("名字")hlist.append("性别")hlist.append("时间")hlist.append("评论")hlist.append("点赞数")hlist.append("回复数")#获取数据num_video = len(reply_data["data"]["list"]["vlist"])for i in range(num_video):video = reply_data["data"]["list"]["vlist"][i]#print(comment)rlist = []comment_num = str(video["comment"])        #评论数ctime = str(time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(video['created'])))   #发表时间time_length = str(video["length"])        #视频长度play = str(video["play"])                         #播放量video_review = str(video["video_review"])         #弹幕数title = str(video["title"])                       #标题     #写入writer.writerow([ctime,title,time_length,play,comment_num,video_review])def fetch(url):headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}try:res = requests.get(url,headers = headers)html = res.textreturn htmlexcept:print("error")if __name__ == "__main__":file = open("video.csv","a",encoding="utf-8",newline="")writer = csv.writer(file)for page in range(1,11):#动态生成链接url_ = "https://api.bilibili.com/x/space/arc/search?mid=250858633&tid=0&ps=30&pn={page}"url = url_.format(page = page)#获取对应的json字符串html = fetch(url)#获取相关数据parse_url(html)#每爬取5个页面睡眠1秒if(page % 5 == 0):time.sleep(1)file.close()

最终结果如下所示:

之后就可以对播放量,弹幕数量,评论数等等做排行了,包括可以做线性分析,通过设置变量以及噪声,从而找到播放量,评论数和弹幕数之间的近似的线性关系

爬取华农兄弟哔哩哔哩所有视频信息相关推荐

  1. 华农兄弟、徐大Sao李子柒?谁才是B站美食区的最强王者?

    作者:徐麟,某互联网公司数据分析狮,个人公众号数据森麟(id:shujusenlin) 前言 关于B站,之前写过一些文章,对B站的内容进行了一些分析,B站已经愈发成为了一个神奇的网站,只有你想不到的, ...

  2. python爬取网站时,一键获取headers、url等信息(真的是让我爬取网站时,省了不少力气,作为小秘密分享给大家喽)

    python爬取网站时,一键获取headers.url等信息 (真的是让我爬取网站时,省了不少力气,作为小秘密分享给大家喽) 作为Python的使用者,我今天就和大家来分享分享我学习python的经验 ...

  3. python爬取抖音用户数据的单位是_爬取并分析一下B站的最热视频排行榜,看看大家都喜欢看什么视频...

    前言 现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉 ...

  4. Python 爬取分析全国 12 个城市 4 万条房价信息,告诉你该怎样买房?

    作者 | 月小水长 责编 | 伍杏玲 2019程序员转型学什么? https://edu.csdn.net/topic/ai30?utm_source=csdn_bw 通过分页.线程池.代理池等技术, ...

  5. python房价数据分析统计服_Python 爬取分析全国 12 个城市 4 万条房价信息,告诉你该怎样买房?...

    原标题:Python 爬取分析全国 12 个城市 4 万条房价信息,告诉你该怎样买房? 作者 | 月小水长 责编 | 伍杏玲通过分页.线程池.代理池等技术,快速爬取链家网近4万条在售二手房信息,速度可 ...

  6. Python爬取豆瓣Top250电影中2000年后上映的影片信息

    Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...

  7. python爬取BT之家特定频道前5页电影信息(小白操作)

    python爬取BT之家特定频道前5页电影信息(小白操作) 想要爬的网页如下,希望得到BT之家恐怖频道的电影信息,并存档xls 代码如下 import requests,openpyxl wb=ope ...

  8. 【python爬虫专项(19)】blibli弹幕数据爬取(以全站搜索蔡徐坤的视频为例)

    blibli任意搜索关键字,相关视频的弹幕数据采集 参考网址:B站蔡徐坤 爬虫逻辑:[分页url采集]-[视频页面url采集]-[视频页面数据采集 / cid信息 / 弹幕xml数据采集] 弹幕xml ...

  9. 抖音爬取粉丝用户列表_抖音分享页用户信息爬取

    其实这个是有客户要求做的,但我完成的不够完美.过来分享出来好了~ 首先,你知道抖音有一个用户分享页吧? F12查看代码. ok,可以看到有数字的地方都做了字体反爬,比如抖音id上的数字啊,粉丝数这些. ...

最新文章

  1. matlab newelm,Elman神经网络介绍以及Matlab实现
  2. spring mvc @ModelAttribute 基本类型 自定义对象解析流程
  3. Oracle 原理: 集合数组,集合属性,is table of 用法,bulk collect into,IS RECORD用法
  4. 使用C#开发一个简单的P2P应用
  5. oracle rman optimization,ORACLE rman设置
  6. 坦克乘员协同训练模拟系统
  7. 3. 线性表的链式结构
  8. 【转载】Jquery中的$命名冲突的解决方案
  9. auraservice是什么_AURA安装与配置全解.doc
  10. WebRTC基本概念
  11. r语言 支持向量机实现_支持向量机解密:R中的实现
  12. 开启nexus出现If you insist running as root, then set the environment variable RUN_AS_USER=root
  13. html5制作电子日历,基于HTML5的日历制作软件
  14. shader实现飞线效果(three.js练习)
  15. 全部就业!最高薪资12.5K,黑马这两个学科好牛!
  16. 电脑装机完没有efi_win7系统eFI引导从硬盘安装的操作方法
  17. 01 | Java入门级学习指南
  18. 北京科技大学,计算机考研情况
  19. Ubuntu16.04 安装 CUDA、CUDNN、OpenCV 并用 Anaconda 配置 Tensorflow 和 Caffe 详细过程
  20. rails 构建高性能web

热门文章

  1. 浏览器兼容性测试系统以及方法和过程
  2. 两箱高低温冲击试验箱的原理
  3. Pedestrian Detection
  4. JQuery_003_事件绑定与解绑
  5. 论坛回帖时同样离不开验证码识别软件
  6. cs1.5最新服务器地址,最新cs1.5战网服务器IP
  7. 计算机毕设(附源码)JAVA-SSM基于微信的基层党建信息系统
  8. Turtlebot4入门教程-机械-有效载荷
  9. mysql数据库,本地存储位置迁移完整步骤。
  10. ubuntu 22.04安装后配置:推荐切换为ubuntu on xorg(登录界面右下角)以正常安装主题及使用flameshot等工具