2020最新Python爬取B站《全职高手》所有评论
关注小菜鸡IT学python
目的:把B站上的番剧《全职高手》的评论全部爬取
首先打开全职高手主页,按F12出现下图
再按短评,下面出现一个url,那个就是储存评论的url。
https://api.bilibili.com/pgc/review/short/list?media_id=5852&ps=20&sort=0
这个就是储存评论的url,但是只能存储20条。这时我们进去看看
这时,我们就要找规律。如何爬取下一页的评论。我们回到《全职高手》主页,往下拉。出现第二个url
https://api.bilibili.com/pgc/review/short/list?media_id=5852&ps=20&sort=0&cursor=79177741882935
这个url和第一个一样,都是储存评论的。但是我们对比一下。
第一个:https://api.bilibili.com/pgc/review/short/list?media_id=5852&ps=20&sort=0
第二个:https://api.bilibili.com/pgc/review/short/list?media_id=5852&ps=20&sort=0&cursor=79177741891494
第三个:https://api.bilibili.com/pgc/review/short/list?media_id=5852&ps=20&sort=0&cursor=79121906942504
按照以往的分析经验,通常这种动态加载的情况,第一个url里一定包括了第二个的url,第二个url里一定有第三个的url
果然,我们在第一个url的最下面发现了next。
这个next是第二个url的组成部分
通过后续,我们也在第二个url的最下面发现了第三个url的组成部分
所以我们构成了一个思路,通过循环。爬取一个url的评论后,就取走next组成新的url,继续爬取新的评论。
url的思路是有了,但是我们不可能爬取一整页,因为url里有我们不需要的东西。这时我们进去url里看看分析一下。
通过这张图片,我们可以看出,content里面储存的是评论。
所以我们简化只爬取content里面的东西就可以了!
最后附上源码:
import requests
import jsonheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}#伪装成浏览器,绕过反爬
url='https://api.bilibili.com/pgc/review/short/list?media_id=5852&ps=20&sort=0'
# 发送get请求
w = requests.get(url, headers=headers).text
json_comment=json.loads(w)
total=json_comment['data']['list']#url中list中存储的内容
num=json_comment['data']['total']#total中的内容,一共有多少个url
s=json_comment['data']#url中的所有内容
j = 0
while j < num:total = json_comment['data']['list']for i in range(len(total)):comment = total[i]['content']#获取url中的评论print(comment)j += 1next=json_comment['data']['next']#获取next中的内容next1 = str(next)url1 = url + '&cursor=' + next1response = requests.get(url1, headers=headers).textjson_comment = json.loads(response)
最后输出结果:数也数不清多少条评论
有帮助的话,就点波关注吧!
关注小菜鸡IT
2020最新Python爬取B站《全职高手》所有评论相关推荐
- python爬取B站动态的评论总数(不含用户评论内容详情)
目录 前言 需求 方案分析 方案一 方案二 接口分析 请求流程 抓包演示 请求接口 接口说明 接口测试 代码 前言 想看接口分析和代码的,可跳过前言. 更新,最核心的代码已删除,思路和其他代码保留. ...
- Python爬取B站弹幕方法介绍
Python爬取B站弹幕方法介绍 文章目录 Python爬取B站弹幕方法介绍 前言 寻找弹幕数据 编写爬虫 B站弹幕数量 新技术介绍 参考文章 前言 最近同学要做东西,需要用 B 站的视频对应的弹幕数 ...
- python接收弹幕_闲着没事,尝试一下用Python爬取B站弹幕呀~
原标题:闲着没事,尝试一下用Python爬取B站弹幕呀~ 前言 最近同学要做东西,需要用 B 站的视频对应的弹幕数据做分析,于是请我帮忙爬取 B 站视频的弹幕数据. 对于爬虫而言,我们需要找到对应数据 ...
- Python 爬取 B 站 5000 条视频,揭秘为何千万人为它流泪!
[CSDN 编者按]<哪吒>看哭了无数人!编者看的那场,有很多小朋友,一开始他们还被太乙真人的滑稽,逗得哈哈笑.到了哪吒成魔要杀父亲.跪别父母.因为宿命不得以和敖丙为敌时,影院里突然安静下 ...
- python爬取bilibili弹幕_用Python爬取B站视频弹幕
原标题:用Python爬取B站视频弹幕 via:菜J学Python 众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一 ...
- 用Python爬取B站、腾讯视频、芒果TV和爱奇艺视频弹幕
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...
- python 爬取B站原视频的实站代码
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云,作者:python学习教程 ( 想要学习Python?Pyt ...
- python爬取2019年计算机就业_2019年最新Python爬取腾讯招聘网信息代码解析
原标题:2019年最新Python爬取腾讯招聘网信息代码解析 前言 初学Python的小伙们在入门的时候感觉这门语言有很大的难度,但是他的用处是非常广泛的,在这里将通过实例代码讲解如何通过Python ...
- 萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下: http://www.demodashi.com/demo/11578.html 一.写在前面 之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这 ...
最新文章
- AOI检测基本原理与设备构成
- this和super的区别
- 2、jeecg 笔记之 t:dictSelect 或 t:dgCol 自定义字典
- 全栈JVM框架Micronaut通向1.0版本之路
- python最难学的是什么_python是最难学的语言吗
- js根据毫米/厘米算像素px
- C/C++轻松写电脑锁机程序
- 不能使用for循环,传入n和m, 生成一个长度为n,每一项都是m的数组
- 微信小程序 环形进度条_微信小程序:实时圆形进度条实现
- Notepad++插件安装和使用和打开大文件
- paip.验证码识别---扭曲与旋转文字
- oracle学习资料
- 基于matlab的心电信号预处理
- donet core 应用 部署到CentOS
- 三维空间中椭圆的参数方程
- 蓝牙技术|传统手表品牌加入智能手表竞争,智能手表市场持续火热
- macos 系统固件 路径_iTunes下载的固件在哪里?iTunes固件文件路径详解
- python12306抢票_Python 版 12306 抢票神器
- Exchange Server 2016 安装部署
- ubuntu Pathon 目录