爬虫 - 豆瓣网《小王子》热评
url:https://book.douban.com/subject/1084336/comments/hot
要求:抓取前50条短评内容并计算评分(有的评论中并不包含评分)的平均值。
热评格式:
评分格式:
代码
# -*- coding: utf-8 -*-
'''
‘theLittlePrinces’
@author: LU
'''import requests,re,time
from bs4 import BeautifulSoupcount = 0 #热评数量
i = 0 #页码
s = 0 #评分总和
count_s = 0
count_del = 0 #超过50的数量
lst_stars = [] #评分列表while count<50:try:r = requests.get('https://book.douban.com/subject/1084336/comments/hot?p='+str(i+1)) #翻页except Exception as err:print(err)breaksoup = BeautifulSoup(r.text, 'lxml')comments = soup.find_all('span', 'short') #寻找评论所在的行(评论行的标签是span,属性内容是short);find_all方法返回的是一个列表for item in comments:count += 1if count>50:count_del += 1else:print(count, item.string)pattern = re.compile('<span class="user-stars allstar(.*?)rating"') #找评分p = re.findall(pattern, r.text) #返回列表pfor star in p:lst_stars.append(int(star))time.sleep(5)i += 1for star in lst_stars[:-count_del]:s += int(star)if count >= 50:print(s//(len(lst_stars)-count_del))
- 运行结果
链接:https://pan.baidu.com/s/1xcnggj3uc1UWpM6Kbk7A6A
提取码:dowt
爬虫 - 豆瓣网《小王子》热评相关推荐
- Java爬虫——网易云热评爬取
爬取目标网址 : http://music.163.com/#/song?id=409649818 需要爬取信息 : 网易云top13热评 使用之前的 HttpURLConnection 获取 ...
- 补如何抓取豆瓣网正在热映电影信息以及海报
废话不多说直接上代码 #!/usr/bin/env python ''' 这篇主要是获取豆瓣网正在热映电影网的电影全部信息 ''' import re import requests from req ...
- 使用urllib 爬取万条伤感网易云热评
使用urllib 爬取万条伤感网易云热评 import urllib.request import re import ssl import json #抓取一页 def 网易云热评(url):#创建 ...
- java爬取网易云热评并制作词云。
IT小白终于脱离hello world,实现用java爬取网易云热评并制作词云,激动激动激动. 一.自我介绍 二.上代码 1.封装各个model类 2.实现各项功能的service类 3.设计一个制作 ...
- python爬取网易云热评
在爬取了妹子图之后,感觉总想再爬点什么东西增加编程兴趣,因为平时喜欢听歌嘛,然后就想到了爬取网易云热评,一首歌无数个故事23333- 首先打开网易云音乐网页版,找到自己想要爬取的那首歌(我这里搜的是隔 ...
- (数据分析)网易云热评技巧
(数据分析)网易云热评技巧 本文通过Python爬虫获取了网易云9万条热评,通过数据可视化分析其中的规律,同时分析热评最多的用户特征,从中总结出上热评的技巧. 1.数据抓取 数据集的获取是我们进行数据 ...
- js版微信测试号推送消息、生日、纪念日、网易云热评、舔狗日记【JavaScript版】保姆级教程 青龙面板做微信测试号推送生日、纪念日
文章目录 微信测试号推送消息 一.申请微信测试号 二.下载nodeJs 1.下载安装包 2.检查是否安装成功 三.设置测试号发送信息的模板 四.编写发送消息代码(必须装好nodeJs) 1.编写代码 ...
- Scriptable脚本——网易云热评2.0
首发自公众号--曰(读yue)坛 今天我为大家带来新的作品,iOS14桌面组件神器(Scriptable)原创脚本,精美作品分享!喜欢的话就点关注吧!更多脚本正在路上- /************** ...
- 浅谈Python爬虫(五)【网易云热评爬取实例】
浅谈Python爬虫(五) 目的:爬取网易云歌单所有歌曲的信息及热评 Python环境:3.7 编译器:PyCharm2019.1.3专业版 存储格式:JSON 1.分析网页 进入网易云音乐首页,点击 ...
最新文章
- 个人计算机 能用作服务器吗,服务器可以当电脑用-服务器与电脑有什么区别?一般的电脑可以做服务器吗? 爱问知识人...
- 微信8年,你从中学到了什么?
- 五大地形等高线特征_高考复习地形特征描述专题
- 几种排序算法性能的比较
- osgi框架和spring区别_BATJ面试必会之 Spring 篇(二)
- Javascript对象及数组用法笔记
- vc的UI编程PngTextButton控件的适用情况
- swoole 服务端heartbeat_check_interval心跳检测 客户端 swoole_timer_tick 发送心跳包 这里只是个demo参考
- 【转载】Java工程师路线图
- linux系统的课程实践,“Linux操作系统与应用”课程教学与实践
- 有关Intel主板驱动静默安装的一个坑
- android锁屏事件监听,Android 监听锁屏、解锁、开屏 操作
- 工业互联网发展行动计划(2018-2020年)
- Cassandra - 集群搭建 及 配置DC和rack
- 服务器系统怎么用主板做RAID,超微主板怎么创建RAID磁盘阵列 服务器组建RAID0、RAID1图文教程...
- 玩转Qml(12)-再谈动态国际化
- 百度坐标批量转换成WGS84坐标
- 借助Microsoft Teams进行在线学习小组的组织与管理
- 微信开发者工具配置连接Gitee
- Canvas 画椭圆的方法
热门文章
- linux查看锁了的用户,linux – 如何查找Unix用户帐户被锁定的所有方式
- cascader 动态加载 回显_Elementui cascader 级联选择器 动态加载数据,保存后回显的问题...
- 日志框架 android,深度剖析Android JDK 日志框架
- mac mysql mysqldump_Mac下Mysql导出sql语句的方法及可能遇到的mysqldump: command not found...
- 服务器区分几位系统吗,怎么区分服务器是几个CPU,几核
- java tika pdf转图片_使用tika将pdf转为html
- Ajax后端极简笔记
- 基金委托管理系统试题
- C#期末考试题,图书系统
- 开源API网关Kong基本介绍和安装验证