python爬去虎扑数据信息，完成可视化

首先分析虎扑页面数据

如图我们所有需要的数据都在其中
![image.png](1)
所以我们获取需要的内容直接利用beaitifulsoupui4
``` soup.find_all('a',class_="truetit")
for p in soup.find_all('a',class_="truetit"):
# 获取a标签的内容
print("帖子的内容如下: ")
print(p.get_text())
```
就可以获取到帖子的内容
。

接下来获取帖子的热门回帖数已经用户信息，首先获取热门回帖数，我的第一想法是用p.next_sibling.next_sibling 来获取（这里要用两次sibing具体原因看官网),结果这样的话发现有很多报错![image.png](2)如图所示！！是因为很多帖子没有热门回帖，所以导致这里没有数据！这里需要判断下，但是后续需要获取其他的数据的时候就会出问题，不能再次使用next_sibling了，欣慰兄弟标签就不一定了！！所以还是使用找到父标签，然后再来处理比较合适。

接下来获取用户的主页信息

　　方法是获取帖子内容标签的祖父标签也就是如图所示的li标签，然后

grandPaInfo.find("div",class_="author box").a['href']这样就可以获取用户的主页信息

接下来需要获取用户性别

　　上一步获取到了用户主页信息，接下来我们需要进入这个主页进行分析

如果所示，我们可以使用如下代码获取用户的性别信息

if soup.find('span', itemprop="gender"):    userSex = soup.find('span', itemprop="gender").get_text()else:    userSex = "NULL"

github地址 https://github.com/zfno111/spider_hupu/tree/zhangfan

转载于:https://www.cnblogs.com/ZFBG/p/10982596.html

python爬去虎扑数据信息，完成可视化相关推荐

python爬取虎扑评论_python爬去虎扑数据信息，完成可视化
首先分析虎扑页面数据如图我们所有需要的数据都在其中 ![image.png](1) 所以我们获取需要的内容直接利用beaitifulsoupui4 ``` soup.find_all('a',cla ...
python爬取虎扑评论_python爬虫系列Selenium定向爬取虎扑篮球图片详解
前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...
python爬取虎扑论坛帖子数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
python爬取虎扑评论_Python爬取NBA虎扑球员数据
虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球.足球.游戏电竞.运动装备.影视.汽车.数码.情感等一切人和事的见解,热闹.真实.有温度. 受害者地址 https://nba.hupu ...
python爬取虎扑评论_python爬取网站数据
编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲起.原本的英文编码只有0~255,刚好是8位1个字节.为了表示各种不同的语言,自然要进行 ...
利用Python爬取各大高校信息并可视化分析，让你填志愿选学校不再迷茫
高考结束了,接下来最重要的就是玩玩玩,然后准备报志愿吧. 关于学校的填报不管是能填几个平行志愿,一定要把所有志愿和专业都填上,不然滑档都没地方给你哭的.但一定要量力而行,切忌好高骛远,选报志愿留有余 ...
利用python+scrapy+mysql爬取虎扑NBA球员数据存入数据库
大家好,这是我的第一篇博客,写的不好请见谅. 小编是个多年的NBA观众,最近正值季后赛的比赛,闲来无事,突发奇想,想利用刚刚所学的python著名爬虫框架scrapy采集一下全NBA的球员基本信息 ...
python爬取论坛图片_[python爬虫] Selenium定向爬取虎扑篮球海量精美图片
前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...
【Python爬虫系列教程 11-100】Python网络爬虫实战：最简单的Pandas 中的read_html一行代码爬取网页表格型数据，就可以爬取虎扑体育NBA球员信息
文章目录爬取对象分析实现代码爬取对象虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球.足球.游戏电竞.运动装备.影视.汽车.数码.情感等一切人和事的见解,热闹.真实.有温度. ...

python爬去虎扑数据信息，完成可视化

python爬去虎扑数据信息，完成可视化相关推荐

最新文章

热门文章