python爬去虎扑数据信息,完成可视化
首先分析虎扑页面数据
如图我们所有需要的数据都在其中
![image.png](1)
所以我们获取需要的内容直接利用beaitifulsoupui4
``` soup.find_all('a',class_="truetit")
for p in soup.find_all('a',class_="truetit"):
# 获取a标签的内容
print("帖子的内容如下: ")
print(p.get_text())
```
就可以获取到帖子的内容
。
接下来获取帖子的热门回帖数已经用户信息,首先获取热门回帖数,我的第一想法是用p.next_sibling.next_sibling 来获取(这里要用两次sibing具体原因看官网),结果这样的话发现有很多报错![image.png](2)如图所示!!是因为很多帖子没有热门回帖,所以导致这里没有数据! 这里需要判断下, 但是后续需要获取其他的数据的时候就会出问题,不能再次使用next_sibling了,欣慰兄弟标签就不一定了 !!所以还是使用找到父标签,然后再来处理比较合适。
接下来获取用户的主页信息
方法是获取帖子内容标签的祖父标签也就是如图所示的li标签,然后
grandPaInfo.find("div",class_="author box").a['href']这样就可以获取用户的主页信息
接下来需要获取用户性别
上一步获取到了用户主页信息,接下来我们需要进入这个主页进行分析
如果所示,我们可以使用如下代码获取 用户的性别信息
if soup.find('span', itemprop="gender"): userSex = soup.find('span', itemprop="gender").get_text()else: userSex = "NULL"
github地址 https://github.com/zfno111/spider_hupu/tree/zhangfan
转载于:https://www.cnblogs.com/ZFBG/p/10982596.html
python爬去虎扑数据信息,完成可视化相关推荐
- python爬取虎扑评论_python爬去虎扑数据信息,完成可视化
首先分析虎扑页面数据 如图我们所有需要的数据都在其中 ![image.png](1) 所以我们获取需要的内容直接利用beaitifulsoupui4 ``` soup.find_all('a',cla ...
- python爬取虎扑评论_python爬虫系列Selenium定向爬取虎扑篮球图片详解
前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...
- python爬取虎扑论坛帖子数据
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
- python爬取虎扑评论_Python爬取NBA虎扑球员数据
虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球.足球.游戏电竞.运动装备.影视.汽车.数码.情感等一切人和事的见解,热闹.真实.有温度. 受害者地址 https://nba.hupu ...
- python爬取虎扑评论_python爬取网站数据
编码问题 因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲起.原本的英文编码只有0~255,刚好是8位1个字节.为了表示各种不同的语言,自然要进行 ...
- 利用Python爬取各大高校信息并可视化分析,让你填志愿选学校不再迷茫
高考结束了,接下来最重要的就是玩玩玩,然后准备报志愿吧. 关于学校的填报 不管是能填几个平行志愿,一定要把所有志愿和专业都填上,不然滑档都没地方给你哭的.但一定要量力而行,切忌好高骛远,选报志愿留有余 ...
- 利用python+scrapy+mysql爬取虎扑NBA球员数据存入数据库
大家好,这是我的第一篇博客,写的不好请见谅. 小编是个多年的NBA观众,最近正值季后赛的比赛,闲来无事,突发奇想,想利用刚刚所学的python著名爬虫框架scrapy采集一下全NBA的球员基本信息 ...
- python爬取论坛图片_[python爬虫] Selenium定向爬取虎扑篮球海量精美图片
前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...
- 【Python爬虫系列教程 11-100】Python网络爬虫实战:最简单的Pandas 中的read_html一行代码爬取网页表格型数据,就可以爬取虎扑体育NBA球员信息
文章目录 爬取对象 分析 实现代码 爬取对象 虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球.足球.游戏电竞.运动装备.影视.汽车.数码.情感等一切人和事的见解,热闹.真实.有温度. ...
最新文章
- databasemetadata获取表注释_宏基因组测序中短序列的注释
- chrome浏览器,调试详解,调试js、调试php、调试ajax
- linux usb ga驱动详解,Linux设备驱动之内存映射
- Ocelot简易教程(五)之集成IdentityServer认证以及授权
- 仿百度,豆瓣读书文库阅读器
- Linux 命令(34)—— vim 命令
- scala中class,object,trait的区别
- 软件需求分析(补发)
- Ansible自动化运维
- 全球国家或地区 及其 区号
- Hugo博客双线部署
- mysql error 1114_ERROR 1114 (HY000): The table 'ds_data' is full (innodb_data_file_path)
- rails 中的pluck 方法
- 项目经理人才培养专题︱优秀项目经理能力建设(一)
- java小组的队名,霸气小组名称口号大全
- pdf转换成word转换器在线使用效果
- 云原生尝试——Docker部署node项目
- 别人无法远程我的电脑
- 说说我理解的SVN操作
- Source Code Pro字体使用
热门文章
- 判断质数和合数的java_质数与合数知识点总结(质数和合数的知识点)
- 前端实现高效的海报系统
- 苹果订阅服务器端开发
- Win11硬盘怎么分区?Win11固态硬盘分区教程
- finalshell root文件夹打不开
- python爬虫利用线程池下载视频
- 微信公众号项目录音上传功能
- DIY自平衡车意外失去左腿后,小哥爆改假肢玩出了花,稚晖君:技术到内心都硬核...
- oracle当查询没有输出返回0,[数据库] Oracle单表查询总数及百分比和数据横向纵向连接...
- html中表格实现在页面居中显示,html中怎么把表格居中