2020最新Python爬取B站《全职高手》所有评论

关注小菜鸡IT学python

目的：把B站上的番剧《全职高手》的评论全部爬取

首先打开全职高手主页，按F12出现下图

再按短评，下面出现一个url，那个就是储存评论的url。

https://api.bilibili.com/pgc/review/short/list?media_id=5852&ps=20&sort=0
这个就是储存评论的url，但是只能存储20条。这时我们进去看看

这时，我们就要找规律。如何爬取下一页的评论。我们回到《全职高手》主页，往下拉。出现第二个url

https://api.bilibili.com/pgc/review/short/list?media_id=5852&ps=20&sort=0&cursor=79177741882935
这个url和第一个一样，都是储存评论的。但是我们对比一下。

第一个：https://api.bilibili.com/pgc/review/short/list?media_id=5852&ps=20&sort=0

第二个：https://api.bilibili.com/pgc/review/short/list?media_id=5852&ps=20&sort=0&cursor=79177741891494

第三个：https://api.bilibili.com/pgc/review/short/list?media_id=5852&ps=20&sort=0&cursor=79121906942504
按照以往的分析经验，通常这种动态加载的情况，第一个url里一定包括了第二个的url，第二个url里一定有第三个的url
果然，我们在第一个url的最下面发现了next。

这个next是第二个url的组成部分
通过后续，我们也在第二个url的最下面发现了第三个url的组成部分
所以我们构成了一个思路，通过循环。爬取一个url的评论后，就取走next组成新的url，继续爬取新的评论。

url的思路是有了，但是我们不可能爬取一整页，因为url里有我们不需要的东西。这时我们进去url里看看分析一下。

通过这张图片，我们可以看出，content里面储存的是评论。
所以我们简化只爬取content里面的东西就可以了！

最后附上源码：

import requests
import jsonheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}#伪装成浏览器，绕过反爬
url='https://api.bilibili.com/pgc/review/short/list?media_id=5852&ps=20&sort=0'
# 发送get请求
w = requests.get(url, headers=headers).text
json_comment=json.loads(w)
total=json_comment['data']['list']#url中list中存储的内容
num=json_comment['data']['total']#total中的内容，一共有多少个url
s=json_comment['data']#url中的所有内容
j = 0
while j < num:total = json_comment['data']['list']for i in range(len(total)):comment = total[i]['content']#获取url中的评论print(comment)j += 1next=json_comment['data']['next']#获取next中的内容next1 = str(next)url1 = url + '&cursor=' + next1response = requests.get(url1, headers=headers).textjson_comment = json.loads(response)

最后输出结果：数也数不清多少条评论

有帮助的话，就点波关注吧！
关注小菜鸡IT

2020最新Python爬取B站《全职高手》所有评论相关推荐

python爬取B站动态的评论总数(不含用户评论内容详情)
目录前言需求方案分析方案一方案二接口分析请求流程抓包演示请求接口接口说明接口测试代码前言想看接口分析和代码的,可跳过前言. 更新,最核心的代码已删除,思路和其他代码保留. ...
Python爬取B站弹幕方法介绍
Python爬取B站弹幕方法介绍文章目录 Python爬取B站弹幕方法介绍前言寻找弹幕数据编写爬虫 B站弹幕数量新技术介绍参考文章前言最近同学要做东西,需要用 B 站的视频对应的弹幕数 ...
python接收弹幕_闲着没事，尝试一下用Python爬取B站弹幕呀~
原标题:闲着没事,尝试一下用Python爬取B站弹幕呀~ 前言最近同学要做东西,需要用 B 站的视频对应的弹幕数据做分析,于是请我帮忙爬取 B 站视频的弹幕数据. 对于爬虫而言,我们需要找到对应数据 ...
Python 爬取 B 站 5000 条视频，揭秘为何千万人为它流泪！
[CSDN 编者按]<哪吒>看哭了无数人!编者看的那场,有很多小朋友,一开始他们还被太乙真人的滑稽,逗得哈哈笑.到了哪吒成魔要杀父亲.跪别父母.因为宿命不得以和敖丙为敌时,影院里突然安静下 ...
python爬取bilibili弹幕_用Python爬取B站视频弹幕
原标题:用Python爬取B站视频弹幕 via:菜J学Python 众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一 ...
用Python爬取B站、腾讯视频、芒果TV和爱奇艺视频弹幕
众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...
python 爬取B站原视频的实站代码
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云,作者:python学习教程 ( 想要学习Python?Pyt ...
python爬取2019年计算机就业_2019年最新Python爬取腾讯招聘网信息代码解析
原标题:2019年最新Python爬取腾讯招聘网信息代码解析前言初学Python的小伙们在入门的时候感觉这门语言有很大的难度,但是他的用处是非常广泛的,在这里将通过实例代码讲解如何通过Python ...
萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下: http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这 ...

2020最新Python爬取B站《全职高手》所有评论

2020最新Python爬取B站《全职高手》所有评论相关推荐

最新文章

热门文章