首先分析虎扑页面数据

如图我们所有需要的数据都在其中
![image.png](1)
所以我们获取需要的内容直接利用beaitifulsoupui4
``` soup.find_all('a',class_="truetit")
for p in soup.find_all('a',class_="truetit"):
# 获取a标签的内容
print("帖子的内容如下: ")
print(p.get_text())
```
就可以获取到帖子的内容

接下来获取帖子的热门回帖数已经用户信息,首先获取热门回帖数,我的第一想法是用p.next_sibling.next_sibling 来获取(这里要用两次sibing具体原因看官网),结果这样的话发现有很多报错![image.png](2)如图所示!!是因为很多帖子没有热门回帖,所以导致这里没有数据! 这里需要判断下, 但是后续需要获取其他的数据的时候就会出问题,不能再次使用next_sibling了,欣慰兄弟标签就不一定了 !!所以还是使用找到父标签,然后再来处理比较合适。

接下来获取用户的主页信息

  方法是获取帖子内容标签的祖父标签也就是如图所示的li标签,然后

grandPaInfo.find("div",class_="author box").a['href']这样就可以获取用户的主页信息

接下来需要获取用户性别

     上一步获取到了用户主页信息,接下来我们需要进入这个主页进行分析 

如果所示,我们可以使用如下代码获取 用户的性别信息

if soup.find('span', itemprop="gender"):    userSex = soup.find('span', itemprop="gender").get_text()else:    userSex = "NULL"

github地址  https://github.com/zfno111/spider_hupu/tree/zhangfan

转载于:https://www.cnblogs.com/ZFBG/p/10982596.html

python爬去虎扑数据信息,完成可视化相关推荐

  1. python爬取虎扑评论_python爬去虎扑数据信息,完成可视化

    首先分析虎扑页面数据 如图我们所有需要的数据都在其中 ![image.png](1) 所以我们获取需要的内容直接利用beaitifulsoupui4 ``` soup.find_all('a',cla ...

  2. python爬取虎扑评论_python爬虫系列Selenium定向爬取虎扑篮球图片详解

    前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...

  3. python爬取虎扑论坛帖子数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  4. python爬取虎扑评论_Python爬取NBA虎扑球员数据

    虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球.足球.游戏电竞.运动装备.影视.汽车.数码.情感等一切人和事的见解,热闹.真实.有温度. 受害者地址 https://nba.hupu ...

  5. python爬取虎扑评论_python爬取网站数据

    编码问题 因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲起.原本的英文编码只有0~255,刚好是8位1个字节.为了表示各种不同的语言,自然要进行 ...

  6. 利用Python爬取各大高校信息并可视化分析,让你填志愿选学校不再迷茫

    高考结束了,接下来最重要的就是玩玩玩,然后准备报志愿吧. 关于学校的填报 不管是能填几个平行志愿,一定要把所有志愿和专业都填上,不然滑档都没地方给你哭的.但一定要量力而行,切忌好高骛远,选报志愿留有余 ...

  7. 利用python+scrapy+mysql爬取虎扑NBA球员数据存入数据库

      大家好,这是我的第一篇博客,写的不好请见谅. 小编是个多年的NBA观众,最近正值季后赛的比赛,闲来无事,突发奇想,想利用刚刚所学的python著名爬虫框架scrapy采集一下全NBA的球员基本信息 ...

  8. python爬取论坛图片_[python爬虫] Selenium定向爬取虎扑篮球海量精美图片

    前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...

  9. 【Python爬虫系列教程 11-100】Python网络爬虫实战:最简单的Pandas 中的read_html一行代码爬取网页表格型数据,就可以爬取虎扑体育NBA球员信息

    文章目录 爬取对象 分析 实现代码 爬取对象 虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球.足球.游戏电竞.运动装备.影视.汽车.数码.情感等一切人和事的见解,热闹.真实.有温度. ...

最新文章

  1. databasemetadata获取表注释_宏基因组测序中短序列的注释
  2. chrome浏览器,调试详解,调试js、调试php、调试ajax
  3. linux usb ga驱动详解,Linux设备驱动之内存映射
  4. Ocelot简易教程(五)之集成IdentityServer认证以及授权
  5. 仿百度,豆瓣读书文库阅读器
  6. Linux 命令(34)—— vim 命令
  7. scala中class,object,trait的区别
  8. 软件需求分析(补发)
  9. Ansible自动化运维
  10. 全球国家或地区 及其 区号
  11. Hugo博客双线部署
  12. mysql error 1114_ERROR 1114 (HY000): The table 'ds_data' is full (innodb_data_file_path)
  13. rails 中的pluck 方法
  14. 项目经理人才培养专题︱优秀项目经理能力建设(一)
  15. java小组的队名,霸气小组名称口号大全
  16. pdf转换成word转换器在线使用效果
  17. 云原生尝试——Docker部署node项目
  18. 别人无法远程我的电脑
  19. 说说我理解的SVN操作
  20. Source Code Pro字体使用

热门文章

  1. 判断质数和合数的java_质数与合数知识点总结(质数和合数的知识点)
  2. 前端实现高效的海报系统
  3. 苹果订阅服务器端开发
  4. Win11硬盘怎么分区?Win11固态硬盘分区教程
  5. finalshell root文件夹打不开
  6. python爬虫利用线程池下载视频
  7. 微信公众号项目录音上传功能
  8. DIY自平衡车意外失去左腿后,小哥爆改假肢玩出了花,稚晖君:技术到内心都硬核...
  9. oracle当查询没有输出返回0,[数据库] Oracle单表查询总数及百分比和数据横向纵向连接...
  10. html中表格实现在页面居中显示,html中怎么把表格居中