豆瓣超高评分《扫黑风暴》热评爬取可视化展示
结果展示
目录详情
网页分析
发送请求
热评爬取
数据分析
可视化展示
网页分析
我们打开豆瓣短评,找到我们所要获取电影的短评列表。
网页F12打开浏览器开发者模式,找到如下
发送请求的真实链接:
数据是存储在一个json的数据集合里面的。
我们使用浏览器插件打开
我们要获取的图片信息都是在一个叫做html的列表里面。
老规矩,先获取json数据集。
发送请求
url = f'https://movie.douban.com/subject/35202793/comments?percent_type=&start={(page - 1) * 20}&limit=20&status=P&sort=new_score&comments_only=1'print(url)headers = {'Cookie': 'bid=Hgm5jLcvu9M; dbcl2="153819075:MtvprK7V/38"; ck=8_y9; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1629936489%2C%22https%3A%2F%2Fopen.weixin.qq.com%2F%22%5D; _pk_ses.100001.4cf6=*; __utma=30149280.232591547.1629936489.1629936489.1629936489.1; __utmb=30149280.0.10.1629936489; __utmc=30149280; __utmz=30149280.1629936489.1.1.utmcsr=open.weixin.qq.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utma=223695111.1326858547.1629936489.1629936489.1629936489.1; __utmb=223695111.0.10.1629936489; __utmc=223695111; __utmz=223695111.1629936489.1.1.utmcsr=open.weixin.qq.com|utmccn=(referral)|utmcmd=referral|utmcct=/; push_noty_num=0; push_doumail_num=0; _vwo_uuid_v2=D8A1AD86A68FA87DAC0208F74852EA234|8c77aabd1c4b456acb80f56ce1913302; _pk_id.100001.4cf6=18e2fa2e664ebce9.1629936489.1.1629936615.1629936489.',f'Referer': f'https://movie.douban.com/subject/35427471/comments?start=20&limit=20&status=P&sort=new_score','User-Agent': str(UserAgent().random)}resp = requests.get(url, headers=headers)if resp.status_code == requests.codes.ok:text = resp.json()['html']print(text)
成功获取到浏览器响应之后我们接下来获取每一部电影的
评分作者、评分时间、评分和评论等
# 姓名cmt_name = div.xpath("./div[@class='comment']/h3/span[@class='comment-info']/a/text()")cmt_names = ''.join(cmt_name).strip()# 评论时间cmt_time = div.xpath("./div[@class='comment']/h3/span[@class='comment-info']/span[@class='comment-time ']/text()")cmt_times = ''.join(cmt_time).strip()# 星评star = div.xpath("./div[@class='comment']/h3/span[@class='comment-info']/span[2]/@title")stars = ''.join(star).strip()# 评分score = div.xpath("./div[@class='comment']/h3/span[@class='comment-info']/span[2]/@class")scores = ''.join(score).strip(' ')[7:8]# 赞同人数vote = div.xpath("./div[@class='comment']/h3/span[@class='comment-vote']/span[@class='votes vote-count']/text()")votes = ''.join(vote).strip()# 评论内容comment = div.xpath("./div[@class='comment']/p[@class=' comment-content']/span[@class='short']/text()")comments = ''.join(comment).strip()
数据提取如下:
春江一壶与君饮 2021-08-09 力荐 6744 5 这瓜保熟吗?我就问你这瓜保熟吗?
爱的魔力转圈圈 2021-08-09 力荐 5231 5 那个死亡洒水车放的歌还是祝你平安。。。
刘十九 2021-08-09 力荐 3666 5 能压住刘华强的,大概就是李丰田了,这选角绝了。前五集有点意思,剧情张弛有度,喜欢这黑色幽默的调调。
Le Papillon 2021-08-10 力荐 4225 5 张艺兴可以啊!进步很大
wind又续期 2021-08-10 很差 1918 1 晕了 第一集就看见张艺兴在抠牙,太恶心了,谁办案要抠牙的…
豆瓣超高评分《扫黑风暴》热评爬取可视化展示相关推荐
- Java爬虫——网易云热评爬取
爬取目标网址 : http://music.163.com/#/song?id=409649818 需要爬取信息 : 网易云top13热评 使用之前的 HttpURLConnection 获取 ...
- Python 3.6实现单博主微博文本、图片及热评爬取
CodingGo技术社区 自由的编程学习平台 文章简介 经常刷微博的同学肯定会关注一些有比较意思的博主,看看他们发的文字.图片.视频和底下评论,但时间一长,可能因为各种各样的原因,等你想去翻看某个博主 ...
- python微博文本分析_Python 3.6实现单博主微博文本、图片及热评爬取
环境介绍 Python3.6.2/Windows-7-64位/微博移动端 实现目标 将微博上你感兴趣的博主微博(全部或过滤非原创等)内容获取,包括微博文本.图片和热评,文本和热评按编号存入txt文件中 ...
- 浅谈Python爬虫(五)【网易云热评爬取实例】
浅谈Python爬虫(五) 目的:爬取网易云歌单所有歌曲的信息及热评 Python环境:3.7 编译器:PyCharm2019.1.3专业版 存储格式:JSON 1.分析网页 进入网易云音乐首页,点击 ...
- python爬取网易云音乐热评,爬取网易云音乐热评[附上音乐下载]
[Python] 纯文本查看 复制代码import requests import time,os from bs4 import BeautifulSoup class Music_down: de ...
- Python 爬虫 爬取豆瓣Top 250 并将海报图片爬取下来保存
本文章的所有代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,滥用技术产生的风险与本人无关. 本文章是自己学习的一些记录. 爬取豆瓣top 250 现在的很多学习的教程例子都是 ...
- servlet+mysql实现的学生评教系统(角色:学生、教师、管理员 功能:评教、修改密码、评教规则管理、评教结果查看、学生管理、教师管理、班级管理、学生信息、评教结果可视化展示等)
博客目录 servlet+mysql实现的学生评教系统 实现功能截图 使用技术 实现的功能 代码 写在最后 servlet+mysql实现的学生评教系统 本系统学生评教的管理,分为学生.教师.管理员三 ...
- 爬虫 - 豆瓣网《小王子》热评
url:https://book.douban.com/subject/1084336/comments/hot 要求:抓取前50条短评内容并计算评分(有的评论中并不包含评分)的平均值. 热评格式: ...
- Python爬虫——豆瓣评分8分以上电影爬取-存储-可视化分析
本文就豆瓣8分以上电影进行爬取-存储-可视化分析. 不足之处欢迎在评论区指出讨论. 当然,如果觉得不错,要帮助的话,还请点个赞. 目录 数据爬取 分析网页 动态网页和静态网页 获取信息 获得二级信息 ...
最新文章
- java格林认证_Java考试格林模拟题
- 4 Git 基础 - 撤消操作
- MVC框架内容-模型
- AD备份文件安装额外域控制器
- leveldb原理和使用
- SpringCloud Ribbon(六)之服务实例过滤器ServerListFilter
- 论文浅尝 | 从知识图谱流中学习时序规则
- 第一篇 mybatis的简介
- Scott Mitchell 的ASP.NET 2.0数据教程之三十一::使用DataList来一行显示多条记录
- 2021-08-27 向量究竟是什么?线性代数的本质,第1章
- php mysql日期区间_php – 3个日期范围之间的Mysql查询
- iOS中的坑:URL不识别##
- 投票系统程序设计缺陷分析
- “配置系统未能初始化” 的异常一种产生原因
- config配置解析
- 一不小心成了中国电力行业最大的无人机供应商,但曹飞的理想是推动整个产业变革
- 使用IAR和BSL下载程序至MSP430F2122
- 5G网优工程师需要会使用哪些软件?Mapinfo是必要!
- php deel views,全量修改文件App名称和改动views位置设置
- linux下实现root用户和其他用户之间转换
热门文章