结果展示

目录详情

网页分析

发送请求

热评爬取

数据分析

可视化展示

网页分析

我们打开豆瓣短评,找到我们所要获取电影的短评列表。

网页F12打开浏览器开发者模式,找到如下

发送请求的真实链接:

数据是存储在一个json的数据集合里面的。

我们使用浏览器插件打开

我们要获取的图片信息都是在一个叫做html的列表里面。

老规矩,先获取json数据集。

发送请求

 url = f'https://movie.douban.com/subject/35202793/comments?percent_type=&start={(page - 1) * 20}&limit=20&status=P&sort=new_score&comments_only=1'print(url)headers = {'Cookie': 'bid=Hgm5jLcvu9M; dbcl2="153819075:MtvprK7V/38"; ck=8_y9; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1629936489%2C%22https%3A%2F%2Fopen.weixin.qq.com%2F%22%5D; _pk_ses.100001.4cf6=*; __utma=30149280.232591547.1629936489.1629936489.1629936489.1; __utmb=30149280.0.10.1629936489; __utmc=30149280; __utmz=30149280.1629936489.1.1.utmcsr=open.weixin.qq.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utma=223695111.1326858547.1629936489.1629936489.1629936489.1; __utmb=223695111.0.10.1629936489; __utmc=223695111; __utmz=223695111.1629936489.1.1.utmcsr=open.weixin.qq.com|utmccn=(referral)|utmcmd=referral|utmcct=/; push_noty_num=0; push_doumail_num=0; _vwo_uuid_v2=D8A1AD86A68FA87DAC0208F74852EA234|8c77aabd1c4b456acb80f56ce1913302; _pk_id.100001.4cf6=18e2fa2e664ebce9.1629936489.1.1629936615.1629936489.',f'Referer': f'https://movie.douban.com/subject/35427471/comments?start=20&limit=20&status=P&sort=new_score','User-Agent': str(UserAgent().random)}resp = requests.get(url, headers=headers)if resp.status_code == requests.codes.ok:text = resp.json()['html']print(text)

成功获取到浏览器响应之后我们接下来获取每一部电影的

评分作者、评分时间、评分和评论等

 # 姓名cmt_name = div.xpath("./div[@class='comment']/h3/span[@class='comment-info']/a/text()")cmt_names = ''.join(cmt_name).strip()# 评论时间cmt_time = div.xpath("./div[@class='comment']/h3/span[@class='comment-info']/span[@class='comment-time ']/text()")cmt_times = ''.join(cmt_time).strip()# 星评star = div.xpath("./div[@class='comment']/h3/span[@class='comment-info']/span[2]/@title")stars = ''.join(star).strip()# 评分score = div.xpath("./div[@class='comment']/h3/span[@class='comment-info']/span[2]/@class")scores = ''.join(score).strip(' ')[7:8]# 赞同人数vote = div.xpath("./div[@class='comment']/h3/span[@class='comment-vote']/span[@class='votes vote-count']/text()")votes = ''.join(vote).strip()# 评论内容comment = div.xpath("./div[@class='comment']/p[@class=' comment-content']/span[@class='short']/text()")comments = ''.join(comment).strip()

数据提取如下:


春江一壶与君饮 2021-08-09 力荐 6744 5 这瓜保熟吗?我就问你这瓜保熟吗?
爱的魔力转圈圈 2021-08-09 力荐 5231 5 那个死亡洒水车放的歌还是祝你平安。。。
刘十九 2021-08-09 力荐 3666 5 能压住刘华强的,大概就是李丰田了,这选角绝了。前五集有点意思,剧情张弛有度,喜欢这黑色幽默的调调。
Le Papillon 2021-08-10 力荐 4225 5 张艺兴可以啊!进步很大
wind又续期 2021-08-10 很差 1918 1 晕了 第一集就看见张艺兴在抠牙,太恶心了,谁办案要抠牙的…												

豆瓣超高评分《扫黑风暴》热评爬取可视化展示相关推荐

  1. Java爬虫——网易云热评爬取

    爬取目标网址 :   http://music.163.com/#/song?id=409649818 需要爬取信息 :   网易云top13热评 使用之前的 HttpURLConnection 获取 ...

  2. Python 3.6实现单博主微博文本、图片及热评爬取

    CodingGo技术社区 自由的编程学习平台 文章简介 经常刷微博的同学肯定会关注一些有比较意思的博主,看看他们发的文字.图片.视频和底下评论,但时间一长,可能因为各种各样的原因,等你想去翻看某个博主 ...

  3. python微博文本分析_Python 3.6实现单博主微博文本、图片及热评爬取

    环境介绍 Python3.6.2/Windows-7-64位/微博移动端 实现目标 将微博上你感兴趣的博主微博(全部或过滤非原创等)内容获取,包括微博文本.图片和热评,文本和热评按编号存入txt文件中 ...

  4. 浅谈Python爬虫(五)【网易云热评爬取实例】

    浅谈Python爬虫(五) 目的:爬取网易云歌单所有歌曲的信息及热评 Python环境:3.7 编译器:PyCharm2019.1.3专业版 存储格式:JSON 1.分析网页 进入网易云音乐首页,点击 ...

  5. python爬取网易云音乐热评,爬取网易云音乐热评[附上音乐下载]

    [Python] 纯文本查看 复制代码import requests import time,os from bs4 import BeautifulSoup class Music_down: de ...

  6. Python 爬虫 爬取豆瓣Top 250 并将海报图片爬取下来保存

    本文章的所有代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,滥用技术产生的风险与本人无关. 本文章是自己学习的一些记录. 爬取豆瓣top 250 现在的很多学习的教程例子都是 ...

  7. servlet+mysql实现的学生评教系统(角色:学生、教师、管理员 功能:评教、修改密码、评教规则管理、评教结果查看、学生管理、教师管理、班级管理、学生信息、评教结果可视化展示等)

    博客目录 servlet+mysql实现的学生评教系统 实现功能截图 使用技术 实现的功能 代码 写在最后 servlet+mysql实现的学生评教系统 本系统学生评教的管理,分为学生.教师.管理员三 ...

  8. 爬虫 - 豆瓣网《小王子》热评

    url:https://book.douban.com/subject/1084336/comments/hot 要求:抓取前50条短评内容并计算评分(有的评论中并不包含评分)的平均值. 热评格式: ...

  9. Python爬虫——豆瓣评分8分以上电影爬取-存储-可视化分析

    本文就豆瓣8分以上电影进行爬取-存储-可视化分析. 不足之处欢迎在评论区指出讨论. 当然,如果觉得不错,要帮助的话,还请点个赞. 目录 数据爬取 分析网页 动态网页和静态网页 获取信息 获得二级信息 ...

最新文章

  1. java格林认证_Java考试格林模拟题
  2. 4 Git 基础 - 撤消操作
  3. MVC框架内容-模型
  4. AD备份文件安装额外域控制器
  5. leveldb原理和使用
  6. SpringCloud Ribbon(六)之服务实例过滤器ServerListFilter
  7. 论文浅尝 | 从知识图谱流中学习时序规则
  8. 第一篇 mybatis的简介
  9. Scott Mitchell 的ASP.NET 2.0数据教程之三十一::使用DataList来一行显示多条记录
  10. 2021-08-27 向量究竟是什么?线性代数的本质,第1章
  11. php mysql日期区间_php – 3个日期范围之间的Mysql查询
  12. iOS中的坑:URL不识别##
  13. 投票系统程序设计缺陷分析
  14. “配置系统未能初始化” 的异常一种产生原因
  15. config配置解析
  16. 一不小心成了中国电力行业最大的无人机供应商,但曹飞的理想是推动整个产业变革
  17. 使用IAR和BSL下载程序至MSP430F2122
  18. 5G网优工程师需要会使用哪些软件?Mapinfo是必要!
  19. php deel views,全量修改文件App名称和改动views位置设置
  20. linux下实现root用户和其他用户之间转换

热门文章

  1. 软件开发2:代码检视
  2. 微信小程序登录过程中,实现数据解密操作
  3. java mail实现smtp登录验证
  4. 计算机网络atm功能,自考计算机网络实用技术考核知识点之ATM原理
  5. XM 玻璃钢一体化泵站特点及使用寿命
  6. iOS工程师 - 简历
  7. 数值分析(7)-非线性方程求根
  8. java毕业设计在线音乐系统Mybatis+系统+数据库+调试部署
  9. VIPKID大米网校“学费交多少,由家长说了算”背后的实力自信
  10. 如何从瘫痪windows系统里面找到原来的IP地址设置