python爬虫分析
爬虫学习(三)
下面写出一个基础大学排名代码进行学习
步骤1:大学排名连接
步骤2:大学排名数据结构
步骤3:利用数据结构进行输出
import requests
import bs4
from bs4 import BeautifulSoupdef geth(url):try:r=requests.get(url,timeout=30)r.raise_for_status()r.encoding=r.apparent_encodingreturn r.textexcept:return ""return ""
def fillu(ulist,html):soup=BeautifulSoup(html,"html.parser")for tr in soup.find("tbody").children:if isinstance(tr,bs4.element.Tag):tds=tr("td")ulist.append([tds[0].string,tds[1].string,tds[2].string,tds[3].string,tds[4].string])pass
def printu(ulist,num):print("{:^10}\t{:^6}\t{:^10}\t{:^15}\t{:^2}\t".format("排名","学校名称","省份","分数","占取率"))for i in range(num):u = ulist[i]print("{:^10}\t{:^6}\t{:^10}\t{:^9}\t{:^13}\t".format(u[0],u[1],u[2],u[3],u[4]))print("Suc"+str(num))
def main():uinfo=[]url="http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html"html=geth(url)fillu(uinfo,html)printu(uinfo,100)
main()
输出为:
上述采用了4个方法
def geth(url):
构造了r.text,返回网址页面内容,进行返回保存,并且判断是否有误,如果有误则返回“”
def fillu(ulist,html):
则是解析网页构造,上述代码则是,在tbody里面寻找tr,再在tr里面找到td,将td里面的内容保存在ulist里面
def printu(ulist,num):
进行一个循环输出,依次将td里面的内容进行输出
python爬虫分析相关推荐
- ❤️大佬都在学什么?Python爬虫分析C站大佬收藏夹,跟着大佬一起学, 你就是下一个大佬❤️!
❤️大佬都在学什么?Python爬虫分析C站大佬收藏夹,跟着大佬一起学,你就是下一个大佬❤️! 前言 程序说明 数据爬取 获取 CSDN 作者总榜数据 获取收藏夹列表 获取收藏数据 爬虫程序完整代码 ...
- Python 爬虫分析豆瓣 TOP250 之 信息字典 和 马斯洛的锥子
问题 本文是对<Python 爬虫分析豆瓣 TOP250 告诉你程序员业余该看什么书?> 一文的补充 我们以<追风少年>为例 用chrome的developer tool查看源 ...
- 手把手教你利用 python 爬虫分析基金、股票
手把手教你利用 python 爬虫分析基金.股票 文章目录 手把手教你利用 python 爬虫分析基金.股票 第一步:基金数据爬取 第二步:股票增持计算 第三步:好股基金选取 桌面程序 exe 从前大 ...
- 用Python爬虫分析上海的房租情况
版权声明:本文为博主原创文章,博客地址:https://blog.csdn.net/m0_37615390,未经博主允许不得转载. 阅读文本大概需要 7 分钟. 大家还记得你们刚来上海的时候租房的房租 ...
- Python 爬虫分析豆瓣 TOP250 告诉你程序员业余该看什么书?
[CSDN 编者按]程序员刷豆瓣也要刷出技术感,本文爬取豆瓣 TOP250 告诉你这些书"热门"在哪里!案例分析之外,重在梳理编写爬虫的逻辑和链路关键点,手把手教你形成自己编写爬虫 ...
- 大数据告诉你,世纪佳缘都是谁在相亲(python爬虫分析,附全部代码)
公众号: 数据小斑马,关注即可获得价值1000元的数据分析学习资料 数据分析学习目录: 一.Excel系列--四大常用函数及十大高级图表 二.SQL系列--性能优化/多表关联/窗口分析函数等 三.统计 ...
- python分析每月销售数据_用Python爬虫分析演唱会销售数据
开篇先科普一下,其实广义范围来定义黄牛,做票务代理的都叫黄牛,只是要分大黄还是小黄,大黄就是大麦网,永乐,演唱会承办方这类,可以称为一级票代,小黄就是淘宝天猫,各地方票务销售点,现场蹲点叫卖的那些卖票 ...
- python爬虫分析大学排名_Python爬虫获得国内高校排名,python,获取,大学排名
整体思路 首先需要找到一个可以看排名的网站,同时他允许我们爬取信息.https://www.shanghairanking.cn/rankings/bcur/2020 然后获取到网站信息,对信息提取处 ...
- python爬虫分析_Python爬虫解析网页的4种方式
文章目录 爬虫的价值 正则表达式 requests-html BeautifulSoup lxml的XPath 爬虫的价值 常见的数据获取方式就三种:自有数据.购买数据.爬取数据.用Python写爬虫 ...
- python爬虫分析数据_Python爬虫入门 处理数据
BeautifulSoup 处理数据我们需要用到一个强大的第三方库--BeautifulSoup 处理数据分为两步:解析数据 和 提取数据,解析数据指将网页源代码解析成 Python 能"读 ...
最新文章
- QTP中对数据库的操作(查询,更新和删除等)
- STL: set相关算法
- Dell服务器相关操作
- 【Java】6.1 Java 8增强的包装类
- apr_pool -- 内存池
- 【python基础】——数据类型(列表、字典、集合)
- 关于脑机接口该如何实现的考虑
- 非多态的继承情况下,基类指针可以指向派生类对象么?
- mysql gtid模式主键主突_Mysql基于GTID主从复制
- pythonopencv目标检测_Python 使用Opencv实现目标检测与识别的示例代码
- CentOS6.5升级内核
- ASP.NET后台注册javascript脚本方法
- NSTimer循环引用
- 【Linux】 Ubuntu intel网卡驱动安装
- 云效研发效能度量体系,如何展示和解读交付效能数据
- 跨省游开放首展,海峡旅博会和休闲旅博会将在厦门举行
- 实现阿里云视频直播流程
- 第13届景驰-埃森哲杯广东工业大学ACM程序设计大赛
- 固态装linux,Linux下安装SSD固态卡
- 执行transact mysql_错误 执行Transact-SQL语句批处理时发生了异常。无法设置主体'sa'的凭据...