关注小菜鸡IT学python

目的:把B站上的番剧《全职高手》的评论全部爬取

首先打开全职高手主页,按F12出现下图

再按短评,下面出现一个url,那个就是储存评论的url。

https://api.bilibili.com/pgc/review/short/list?media_id=5852&ps=20&sort=0
这个就是储存评论的url,但是只能存储20条。这时我们进去看看


这时,我们就要找规律。如何爬取下一页的评论。我们回到《全职高手》主页,往下拉。出现第二个url

https://api.bilibili.com/pgc/review/short/list?media_id=5852&ps=20&sort=0&cursor=79177741882935
这个url和第一个一样,都是储存评论的。但是我们对比一下。

第一个:https://api.bilibili.com/pgc/review/short/list?media_id=5852&ps=20&sort=0

第二个:https://api.bilibili.com/pgc/review/short/list?media_id=5852&ps=20&sort=0&cursor=79177741891494

第三个:https://api.bilibili.com/pgc/review/short/list?media_id=5852&ps=20&sort=0&cursor=79121906942504
按照以往的分析经验,通常这种动态加载的情况,第一个url里一定包括了第二个的url,第二个url里一定有第三个的url
果然,我们在第一个url的最下面发现了next。

这个next是第二个url的组成部分
通过后续,我们也在第二个url的最下面发现了第三个url的组成部分
所以我们构成了一个思路,通过循环。爬取一个url的评论后,就取走next组成新的url,继续爬取新的评论。

url的思路是有了,但是我们不可能爬取一整页,因为url里有我们不需要的东西。这时我们进去url里看看分析一下。

通过这张图片,我们可以看出,content里面储存的是评论。
所以我们简化只爬取content里面的东西就可以了!

最后附上源码:

import requests
import jsonheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}#伪装成浏览器,绕过反爬
url='https://api.bilibili.com/pgc/review/short/list?media_id=5852&ps=20&sort=0'
# 发送get请求
w = requests.get(url, headers=headers).text
json_comment=json.loads(w)
total=json_comment['data']['list']#url中list中存储的内容
num=json_comment['data']['total']#total中的内容,一共有多少个url
s=json_comment['data']#url中的所有内容
j = 0
while j < num:total = json_comment['data']['list']for i in range(len(total)):comment = total[i]['content']#获取url中的评论print(comment)j += 1next=json_comment['data']['next']#获取next中的内容next1 = str(next)url1 = url + '&cursor=' + next1response = requests.get(url1, headers=headers).textjson_comment = json.loads(response)

最后输出结果:数也数不清多少条评论

有帮助的话,就点波关注吧!
关注小菜鸡IT

2020最新Python爬取B站《全职高手》所有评论相关推荐

  1. python爬取B站动态的评论总数(不含用户评论内容详情)

    目录 前言 需求 方案分析 方案一 方案二 接口分析 请求流程 抓包演示 请求接口 接口说明 接口测试 代码 前言 想看接口分析和代码的,可跳过前言. 更新,最核心的代码已删除,思路和其他代码保留. ...

  2. Python爬取B站弹幕方法介绍

    Python爬取B站弹幕方法介绍 文章目录 Python爬取B站弹幕方法介绍 前言 寻找弹幕数据 编写爬虫 B站弹幕数量 新技术介绍 参考文章 前言 最近同学要做东西,需要用 B 站的视频对应的弹幕数 ...

  3. python接收弹幕_闲着没事,尝试一下用Python爬取B站弹幕呀~

    原标题:闲着没事,尝试一下用Python爬取B站弹幕呀~ 前言 最近同学要做东西,需要用 B 站的视频对应的弹幕数据做分析,于是请我帮忙爬取 B 站视频的弹幕数据. 对于爬虫而言,我们需要找到对应数据 ...

  4. Python 爬取 B 站 5000 条视频,揭秘为何千万人为它流泪!

    [CSDN 编者按]<哪吒>看哭了无数人!编者看的那场,有很多小朋友,一开始他们还被太乙真人的滑稽,逗得哈哈笑.到了哪吒成魔要杀父亲.跪别父母.因为宿命不得以和敖丙为敌时,影院里突然安静下 ...

  5. python爬取bilibili弹幕_用Python爬取B站视频弹幕

    原标题:用Python爬取B站视频弹幕 via:菜J学Python 众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一 ...

  6. 用Python爬取B站、腾讯视频、芒果TV和爱奇艺视频弹幕

    众所周知,弹幕,即在网络上观看视频时弹出的评论性字幕.不知道大家看视频的时候会不会点开弹幕,于我而言,弹幕是视频内容的良好补充,是一个组织良好的评论序列.通过分析弹幕,我们可以快速洞察广大观众对于视频 ...

  7. python 爬取B站原视频的实站代码

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云,作者:python学习教程 ( 想要学习Python?Pyt ...

  8. python爬取2019年计算机就业_2019年最新Python爬取腾讯招聘网信息代码解析

    原标题:2019年最新Python爬取腾讯招聘网信息代码解析 前言 初学Python的小伙们在入门的时候感觉这门语言有很大的难度,但是他的用处是非常广泛的,在这里将通过实例代码讲解如何通过Python ...

  9. 萌新学习Python爬取B站弹幕+R语言分词demo说明

    代码地址如下: http://www.demodashi.com/demo/11578.html 一.写在前面 之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这 ...

最新文章

  1. AOI检测基本原理与设备构成
  2. this和super的区别
  3. 2、jeecg 笔记之 t:dictSelect 或 t:dgCol 自定义字典
  4. 全栈JVM框架Micronaut通向1.0版本之路
  5. python最难学的是什么_python是最难学的语言吗
  6. js根据毫米/厘米算像素px
  7. C/C++轻松写电脑锁机程序
  8. 不能使用for循环,传入n和m, 生成一个长度为n,每一项都是m的数组
  9. 微信小程序 环形进度条_微信小程序:实时圆形进度条实现
  10. Notepad++插件安装和使用和打开大文件
  11. paip.验证码识别---扭曲与旋转文字
  12. oracle学习资料
  13. 基于matlab的心电信号预处理
  14. donet core 应用 部署到CentOS
  15. 三维空间中椭圆的参数方程
  16. 蓝牙技术|传统手表品牌加入智能手表竞争,智能手表市场持续火热
  17. macos 系统固件 路径_iTunes下载的固件在哪里?iTunes固件文件路径详解
  18. python12306抢票_Python 版 12306 抢票神器
  19. Exchange Server 2016 安装部署
  20. ubuntu Pathon 目录

热门文章

  1. Spark WordCount 案例
  2. SAP获取服务器文件F4帮助,SAP中的F4帮助
  3. 微信小程序-注册和第一个demo
  4. php红包互换免公众号,红包互换H5免公众号对接支付最新完美修复版源码
  5. 关于用Go做一些OJ时遇到的问题
  6. Xshell7 和 Xftp7要继续使用此程序,您必须应用最新的更新或者使用新版本
  7. java 画三角形_java – 如何在Android画布中绘制一个填充三角形?
  8. 内存空间为什么要分栈和堆?
  9. VMware 16安装centos 7详细教程
  10. 【问题解决】arcgis地图无法放大缩小